专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造

量子位  · 公众号  · AI  · 2024-10-01 19:10

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 挑战Transformer,MIT初创团队推出 LFM ( L iquid F oundation M odel) 新架构模型爆火。 LFM 1.3B 、 LFM 3B 两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。 LFM架构还有很好的可扩展性,团队还推出了 基于MoE的LFM 40B (激活12B参数) ,能与更大规模的密集模型或MoE模型相媲美。 LFM用的是一种 液态神经网络 (LNN) ,从 第一性原理 出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。 这种架构还有一个特点:在 内存效率 方面特别强。 基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。 小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。 LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫 Liquid AI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览