非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造

量子位 · 公众号 · AI · 2024-10-01 19:10

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI 挑战Transformer，MIT初创团队推出 LFM （ L iquid F oundation M odel）新架构模型爆火。 LFM 1.3B 、 LFM 3B 两个不同大小的模型，性能超越同等规模Llama3.2等Transformer模型。 LFM架构还有很好的可扩展性，团队还推出了基于MoE的LFM 40B （激活12B参数），能与更大规模的密集模型或MoE模型相媲美。 LFM用的是一种液态神经网络（LNN），从第一性原理出发而构建，其计算单元植根于动态系统理论、信号处理和数值线性代数。这种架构还有一个特点：在内存效率方面特别强。基于Transformer的LLM中的KV缓存在长上下文中会急剧增长，而LFM即使在处理100万个token时也能保持内存最小。小巧便携，使得它能够直接部署在手机上进行文档和书籍等分析。 LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队，名叫 Liquid AI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 问：如何能用 AI 撰写一份专业的“某地区域经济报告”？我初步想-20241119110338

4 天前

爱可可-爱生活 · 【信息熵新解：探索信息论中的熵概念，探讨了一种替代的 Shann-20241118103458

5 天前

黄建同学 · 机器人+AI 的这项应用看起来能改变世界！我们正在告别丑陋的建筑-20241117185023

5 天前

黄建同学 · 太喜欢 Seif Abdalla 这部 AI 生成的视频了！#a-20241117122925

6 天前

宝玉xp · 回复@Orenoid:会的，但是不可控，Cursor会索引代码文-20241117012020

6 天前

脑极体 · AI魔术上演前夕，国产存储早已强势清场

3 月前

眸娱 · 街霸6销量突破400万；腾讯怪物猎人新作预计年内公布；黑神话DLC正在开发中

2 月前