文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI 挑战Transformer,MIT初创团队推出 LFM ( L iquid F oundation M odel) 新架构模型爆火。 LFM 1.3B 、 LFM 3B 两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。 LFM架构还有很好的可扩展性,团队还推出了 基于MoE的LFM 40B (激活12B参数) ,能与更大规模的密集模型或MoE模型相媲美。 LFM用的是一种 液态神经网络 (LNN) ,从 第一性原理 出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。 这种架构还有一个特点:在 内存效率 方面特别强。 基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。 小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。 LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫 Liquid AI
………………………………