维也纳大学有计算机系

西风 发自 凹非寺

量子位 | 公众号 QbitAI

挑战Transformer,MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。

LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。

LFM架构还有很好的可扩展性,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美。

LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。

这种架构还有一个特点:在内存效率方面特别强。

基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。

小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。

LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。

其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call:

这三个具有SOTA性能的模型,是我职业生涯中最值得骄傲的版本。

AI畅销书《人工直觉》作者也表示看好。

一直等的就是这样的模型,基于物理学或神经元的“第一性原理”

目前LFM系列模型还在预览测试中,大伙儿可通过Liquid官方平台、Lambda Chat、Perplexity AI来访问。

基于液态神经网络打造

具体来看看这三个模型的性能和特点。

LFM 1.3B在MMLU、MMLU-Pro、ARC-C、GSM8K基准上相较于下表其它模型,取得SOTA性能。

LFM 3B,还能和Mistral 7B、Llama3.1 8B两倍大模型打得有来有回。

LFM 40B性能也可与比其自身更大的模型相媲美,MoE架构可实现更高吞吐可部署在更具成本效益的硬件上。

与Transformer架构相比,LFM的一个突出优势就是内存占用更少。

对于长输入效果更明显,基于Transformer的LLM中的KV缓存随着序列长度线性增长。通过有效压缩输入,LFM可以在同一硬件上处理更长的序列。

以下是LFM 3B与其它3B级模型的对比,LFM 3B能始终保持较小的内存占用。

处理100万个token,LFM 3B只需16 GB内存,而Llama-3.2-3B模型则需48 GB+。

LFM上下文有效长度为32k。

当相应得分高于85.6时,长度被认为是“有效的”(Hsieh等人,2024 RULER)。

LFM 3B在32k的上下文长度上,仍能保持89.5的高分。

实验结果中Llama 3.2生成128k上下文窗口,但实际只在4k上有效,也引起一波关注。

除此之外,LFM由结构化运算符组成,为基础模型打开了一个新的设计空间。

不仅限于语言,还可以将其应用于音频、时间序列、图像等等其它模态。

还具有高适应性,可针对特定平台(如苹果、高通、Cerebras、AMD)优化架构,或匹配给定的参数要求和推理缓存大小。

Liquid AI团队直接把目前LFM模型的优缺点都一一列了出来。

现在LFM语言模型擅长通用和专业知识、数学和逻辑推理、长上下文任务。

主要语言是英语,还支持西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。

但LFM语言模型不擅长零样本代码任务、精确的数值计算、时效性信息,人类偏好优化相关技术也尚未广泛应用。

有意思的是,Liquid AI团队还明确表示LFM现在不会数“Strawberry”中“r”的数量。

经网友测试,它确实不会。

关于LFM架构更多技术细节,官方表示将持续发布技术Blog。

背后团队来自MIT CSAIL

下面简单介绍一下LFM模型背后团队——Liquid AI。

Liquid AI是一家从MIT计算机科学与人工智能实验室衍生出来的公司。

目标是在每一个规模上构建能力强大且高效的通用人工智能系统。

联合创始人共有四位。

CEO Ramin Hasani,MIT CSAIL人工智能科学家、前Vanguard Group首席人工智能和机器学习科学家。

博士论文研究主题就是关于液态神经网络(Liquid Neural Networks),由维也纳工业大学Radu Grosu教授和麻省理工学院Daniela Rus教授共同指导。

CTO Mathias Lechner,MIT CSAIL研究员。

维也纳工业大学计算机科学的学士、硕士学位,奥地利科学与技术研究所(ISTA)博士学位。

专注于开发稳健可信的机器学习模型。

首席科学官Alexander Amini,在MIT完成了计算机科学学士、硕士和博士学位,同时辅修数学。

研究的领域包括自主系统的端到端控制学习、神经网络的置信度公式化、人类移动性的数学建模以及复杂惯性精细化系统的构建。

另外一位联合创始人是MIT CSAIL主任Daniela Rus,她还是MIT电气工程与计算机科学系的Andrew&Erna Viterbi教授。

Liquid AI成立初就致力于从第一性原理出发构建新一代基础模型,是一个基于深度信号处理和状态空间层扩展语言模型的团队。

之前研究有一箩筐:

感兴趣的的家人们可以自行查阅:https://www.liquid.ai/blog/liquid-neural-networks-research

对新模型感兴趣的家人们可以测试起来了:https://playground.liquid.ai/chat?model=cm1ooqdqo000208jx67z86ftk

参考链接:[1]https://x.com/LiquidAI_/status/1840768722665189596[2]https://venturebeat.com/ai/mit-spinoff-liquid-debuts-non-transformer-ai-models-and-theyre-already-state-of-the-art/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/46956.html

(0)
上一篇 2025年7月5日
下一篇 2025年7月5日

相关推荐

  • 新加坡国立大学mba(新加坡国立大学mba申请条件)

    新加坡国立大学(National University of Singapore),是新加坡最高学府。在教学、研究以及创业方面于世界上都具有卓越的领先优势。在QS亚洲大学排名中,新加坡国立大学连续多年称霸亚洲学府。 新加坡国立大学2024学年硕士申请陆续开放,目前已经开放多个专业,大部分专业申请都将在明年3月截止,感兴趣的小伙伴可以赶紧申请了。 理学院 图片…

    2023年11月13日
  • 大连出国留学机构_大连出国留学机构排名

    法国自由电影学院(CLCF) Conservatoire livre du cinéma français 法国自由电影学院(CLCF)创建于1956年,并于1963年获得法国教育部的授权,是欧洲历史上最悠久的私立电影学院。1993年,马塞尔·卡尔内投资电影学院,进一步扩大了教育资源。2003年学院正式加入国际影视学院联盟中心,成功跻身世界知名影视学院之列。…

    2024年2月19日
  • 英国大使馆签证中心

    英国的签证是分二步的,线上申请和线下递签两个部分,在完成线上提交申请和缴费后,同学们仍然需要预约线下签证中心递交护照和采集生物信息,而只有同学们完成了线下递签后才算是完成了英国签证的申请。需要注意的是,不是每个城市都有签证中心,目前中国有15个城市开设了英国签证中心,所以同学们也只能去这15个签证中心完成递签手续哦!营业时间和护照领取:星期一至星期五09:0…

    2024年5月5日
  • 盖茨的婚姻没有爱情(盖茨的婚姻没有爱情吗)

    #盖茨称自己的婚姻没有爱情# 01 如果你不爱一个人,你会跟他结婚吗? 可能很多人都会说不会,婚姻里没有爱情,这日子过得还有什么意思。但是在现实生活中,也有一部分人的婚姻是没有爱的,他们选择结婚不过是因为合适,又或者因为他们的年龄到了,将就凑合而结婚。 我们都知道昔日的世界首富比尔盖茨,已经和妻子梅琳达官宣离婚了。 回顾他们27年的婚姻,两人相识于微软,育有…

    2023年10月18日
  • 大学生出国留学条件(大学生出国留学条件和要求)

    01:语言能力 国内的学生申请出国留学,语言能力是必备条件之一,一般情况下,需要提供雅思或托福成绩。 雅思考试的满分是9分,如果是出国留学读预科,对雅思的总分要求是5.5及以上,如果是读本科和研究生,通常要求雅思总分6.5及以上,部分专业或课程,对雅思的总分要求甚至能达到7.0及以上。 托福考试的满分是120分,一般情况下,出国留学读预科,托福成绩要达到59…

    2023年11月12日
  • ut达拉斯大学_UT达拉斯大学

    德克萨斯大学达拉斯分校(University of Texas at Dallas,缩写UTD,或简称为UT Dallas)是一所位于美国德克萨斯州理查德森市的公立研究型大学,成立于1969年。该校是德克萨斯大学系统的一员,也是该系统中仅次于其旗舰学校德克萨斯大学奥斯汀分校的学校,是美国近年来发展最为迅速的大学之一。 德克萨斯大学达拉斯分校是德州大学系统近年…

    2024年3月4日
  • 核技术专业大学排名_核技术专业大学排名分数线

    核电作为一种清洁能源,与传统能源相比,核燃料体积小,1000克的铀相当于1000吨的标准煤。核电产生过程中没有温室气体产生,环境负荷极小。核能源将成为中国未来能源的绿色支柱,核工程与核技术专业毕业生深受社会欢迎,就业前景良好。下面就把该专业全国排名前十的院校推荐给大家。 NO.1清华大学 清华大学工程物理系设有6个研究所。覆盖核科学与技术、安全科学与工程、物…

    2024年4月19日
  • 爱荷华州立大学创业学博士

    香港资本市场,又将迎来一家医药上市公司。 前不久,浙江同源康医药股份有限公司(简称“同源康医药”)递表港交所主板,中信证券为其独家保荐人。 同源康医药是一家创新药物研发商,致力于癌症治疗和抗癌药物的研发。公司曾斩获浙商创投、厚纪资本、长兴金控、中金等机构的融资,估值5年翻超20倍,最新的投后估值已达到30.84亿元。 若能成功上市,年逾六十的创始人吴豫生,也…

    2025年7月25日
  • cbc是什么人

    (观察者网讯)在关于中国的话题上,病态的推特,从来不缺少冠冕堂皇的理由。 当地时间19日,在华新西兰媒体人安柏然(Andy Boreham)惊讶发现,推特直接给他打上了“中国官方媒体”的标签,“wow,据我所知,我是第一个获得这个令人垂涎的头衔的外国人,朋友们,让我们继续和机器做战斗吧!” 在这条帖子最后,安柏然还带上了撒花庆祝、微笑以及中国国旗的表情符号。…

    2024年6月4日
  • 教学设施设备有哪些

    教育培训市场的老师,和传统公立校的老师相比较,更迭的速度是更快的。一方面,学生大量涌入教培训机构,为行业注入了诸多活力;但另一方面,让校长们头疼的教师备课压力大、教学质量难保证、教师培养难以标准化等运营,也随之而来。 好老师,会在学生的学习过程中起到关键作用。很多时候,校区花了大量的精力来培训老师、给教师赋能,但不久以后,这个老师就离职了。如何留住好老师,成…

    2024年4月17日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信