维也纳大学有计算机系

西风 发自 凹非寺

量子位 | 公众号 QbitAI

挑战Transformer,MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。

LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。

LFM架构还有很好的可扩展性,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美。

LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。

这种架构还有一个特点:在内存效率方面特别强。

基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。

小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。

LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。

其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call:

这三个具有SOTA性能的模型,是我职业生涯中最值得骄傲的版本。

AI畅销书《人工直觉》作者也表示看好。

一直等的就是这样的模型,基于物理学或神经元的“第一性原理”

目前LFM系列模型还在预览测试中,大伙儿可通过Liquid官方平台、Lambda Chat、Perplexity AI来访问。

基于液态神经网络打造

具体来看看这三个模型的性能和特点。

LFM 1.3B在MMLU、MMLU-Pro、ARC-C、GSM8K基准上相较于下表其它模型,取得SOTA性能。

LFM 3B,还能和Mistral 7B、Llama3.1 8B两倍大模型打得有来有回。

LFM 40B性能也可与比其自身更大的模型相媲美,MoE架构可实现更高吞吐可部署在更具成本效益的硬件上。

与Transformer架构相比,LFM的一个突出优势就是内存占用更少。

对于长输入效果更明显,基于Transformer的LLM中的KV缓存随着序列长度线性增长。通过有效压缩输入,LFM可以在同一硬件上处理更长的序列。

以下是LFM 3B与其它3B级模型的对比,LFM 3B能始终保持较小的内存占用。

处理100万个token,LFM 3B只需16 GB内存,而Llama-3.2-3B模型则需48 GB+。

LFM上下文有效长度为32k。

当相应得分高于85.6时,长度被认为是“有效的”(Hsieh等人,2024 RULER)。

LFM 3B在32k的上下文长度上,仍能保持89.5的高分。

实验结果中Llama 3.2生成128k上下文窗口,但实际只在4k上有效,也引起一波关注。

除此之外,LFM由结构化运算符组成,为基础模型打开了一个新的设计空间。

不仅限于语言,还可以将其应用于音频、时间序列、图像等等其它模态。

还具有高适应性,可针对特定平台(如苹果、高通、Cerebras、AMD)优化架构,或匹配给定的参数要求和推理缓存大小。

Liquid AI团队直接把目前LFM模型的优缺点都一一列了出来。

现在LFM语言模型擅长通用和专业知识、数学和逻辑推理、长上下文任务。

主要语言是英语,还支持西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。

但LFM语言模型不擅长零样本代码任务、精确的数值计算、时效性信息,人类偏好优化相关技术也尚未广泛应用。

有意思的是,Liquid AI团队还明确表示LFM现在不会数“Strawberry”中“r”的数量。

经网友测试,它确实不会。

关于LFM架构更多技术细节,官方表示将持续发布技术Blog。

背后团队来自MIT CSAIL

下面简单介绍一下LFM模型背后团队——Liquid AI。

Liquid AI是一家从MIT计算机科学与人工智能实验室衍生出来的公司。

目标是在每一个规模上构建能力强大且高效的通用人工智能系统。

联合创始人共有四位。

CEO Ramin Hasani,MIT CSAIL人工智能科学家、前Vanguard Group首席人工智能和机器学习科学家。

博士论文研究主题就是关于液态神经网络(Liquid Neural Networks),由维也纳工业大学Radu Grosu教授和麻省理工学院Daniela Rus教授共同指导。

CTO Mathias Lechner,MIT CSAIL研究员。

维也纳工业大学计算机科学的学士、硕士学位,奥地利科学与技术研究所(ISTA)博士学位。

专注于开发稳健可信的机器学习模型。

首席科学官Alexander Amini,在MIT完成了计算机科学学士、硕士和博士学位,同时辅修数学。

研究的领域包括自主系统的端到端控制学习、神经网络的置信度公式化、人类移动性的数学建模以及复杂惯性精细化系统的构建。

另外一位联合创始人是MIT CSAIL主任Daniela Rus,她还是MIT电气工程与计算机科学系的Andrew&Erna Viterbi教授。

Liquid AI成立初就致力于从第一性原理出发构建新一代基础模型,是一个基于深度信号处理和状态空间层扩展语言模型的团队。

之前研究有一箩筐:

感兴趣的的家人们可以自行查阅:https://www.liquid.ai/blog/liquid-neural-networks-research

对新模型感兴趣的家人们可以测试起来了:https://playground.liquid.ai/chat?model=cm1ooqdqo000208jx67z86ftk

参考链接:[1]https://x.com/LiquidAI_/status/1840768722665189596[2]https://venturebeat.com/ai/mit-spinoff-liquid-debuts-non-transformer-ai-models-and-theyre-already-state-of-the-art/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/46956.html

(0)
上一篇 2025年7月5日
下一篇 2025年7月5日

相关推荐

  • 1990年全国重点大学排名

    《中国高等学校变迁》封面 题记: 当今中国,“榜行天下”,有一种“无榜不成网”的感觉。 榜中,有“财富排行榜”,“企业排行榜”、“银行排行榜”、“城市排行榜”、“宜居城市排行榜”、“旅游景区排行榜”、“销售收入排行榜”、“图书销售排行榜”、“电影票房收入排行榜”,等等。 回顾历史,“排行榜”渊源甚早。 人们的衣、食、住、行………,都有“子丑寅卯”之分。 其中…

    2025年3月26日
  • 美国人饮食特点

    美国人为何日益肥胖?看看资本如何操纵饮食习惯,真相极其惊人!中国人要引以为戒!! 美国人为何日益肥胖?这背后的真相可能让很多人大跌眼镜。根据美国疾病控制与预防中心的统计,过去四十年,美国成年人的肥胖率从13%上升到了42%。这背后,是资本在操纵人们的饮食习惯。 首先,快餐业的发展是美国人日益肥胖的重要原因之一。资本为了追求利润最大化,将快餐推向市场,使得快餐…

    2023年12月18日
  • 贵州全真大学

    中新网北京3月28日电 (记者上官云)在古代文献中,“笔记”是很重要的一部分,它们没有一定体例,却蕴含着丰富信息,历来为研究者重视。 在近期出版的《全辽金元笔记》(第一辑)中,记录了许多古代文人趣事。《全辽金元笔记》主编、南开大学文学院教授查洪德在接受中新网记者专访时提到,在“辽金元笔记”中,有为数不少的域外地志、西北行记,多是前代所不曾有。 此外,古代一度…

    4天前
  • 上交所:落实独立董事制度改革 大力惩处资金占用 从严打击财务造假

    为继续贯彻落实新一轮推动提高上市公司质量三年行动方案,以健全打击重大违法长效机制为目标,不断提高自律监管的规范性、适应性、透明度,上海证券交易所(以下简称本所)对《上海证券交易所自律监管指引第10号——纪律处分实施标准》(以下简称《纪律处分实施标准》)作出修订,前期已向30余家主板及科创板上市公司征求意见。现将修订情况说明如下。 一、修订背景 《纪律处分实施…

    2024年1月19日
  • 美国奢侈品管理专业(美国奢侈品管理专业大学排名)

    美国奢侈品管理专业教育规模较为成熟,给学生也留有较为充裕的名企实习机会,在美国就读此专业的学生能够有许多机会接触世界顶级奢侈品公司,无论在国内外就业都有着具有巨大的竞争优势。而随着中国经济市场的不断发展,对于奢侈品的需求不断上升,从一线奢侈品品牌对渠道沟通人才、销售人才、管理人才和外语复合型人才都有着很大的需求,因此在国内的就业前景也十分广阔。     专业…

    2023年9月28日
  • 日本世界排名前100大学_日本世界排名前100大学人才引进

    今天跟蔚蓝留学网老师看一下2022年泰晤士世界大学排名日本版及日本大学排名情况,希望对计划去日本留学的同学们有所帮助。 近日,泰晤士THE(Times Higher Education)发布了2022年泰晤士世界大学ランキング日本版。 泰晤士世界大学排名是世界四大最具影响力的全球性大学排名。其发布的泰晤士世界大学ランキング日本版,区别于世界大学排名的;是在以…

    2024年3月1日
  • 新西兰大学开学时间(新西兰大学开学时间2023)

    咚咚咚!2023年怀卡托大学校历新鲜出炉啦!新学年,新开始,快把重要的日子圈起来! 如果你还在为何时注册,选课,考试,放假等时间而挠头,别怕!怀卡托大学2023年关键日期汇总来啦,赶快收藏起来! 2023年重要日期 C学期&H学期重要日期 怀唐伊日(新西兰公共假日)2月6日 结课 2月10日 考试复习周 2月13日 – 2月15日 考试周…

    2023年10月3日
  • 哈弗大学论文疯传

    近日,美国哈佛大学医学院一团队发布“论文”称,通过分析100多张武汉6家医院停车场的图片和中国搜索引擎百度的搜索数据,就得出结论认为新冠肺炎在去年8月底可能就已经在武汉传播。 这篇论文尚未获同行审批通过,并未发表。文中两个所谓的论据,也是漏洞百出,但这完全没有影响美国部分政客大肆炒作。 图自哈佛大学 “哈佛大学论文”有多“可笑” ? 6月8日,美国哈佛大学在…

    2024年10月26日
  • ucb大学好吗

    现在社会上对于明星的学历要求越来越高,老一辈明星积极读书,提升自己的水平,新一代小年轻,也在积极备考,争取考上一所好的大学,希望不再媒体和大众面前丢脸。 以往的明星都是毕业于北京电影学院,上海戏剧学院、中央戏剧学院这样的老牌院校,是很受大家的认可的。但是现在的明星却越来越青睐于一所外国的大学,那就是“伯克利大学”。 伯克利大学,究竟是什么水平的大学? 像是王…

    2025年6月17日
  • gre班课(gre班课难吗)

    如何选择成都gre培训机构班?逻辑思维是大多数中国考生的弱点,中国考生通常是发散性思维,而不是严谨的论证性思维,这让大家在做GRE题目时感到不舒服,也比较吃亏,这就需要参加GRE考试培训,通过专业老师的授课,纠正逻辑思维,提高自己的逻辑分析能力。那么如何选择成都gre培训机构班?一起来看看吧。 一、师资力量 培训老师的教学水平直接影响到考生的复习效果,因此学…

    2023年10月25日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信