专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造

大模型智能  · 公众号  ·  · 2024-10-03 00:11

文章预览

大模型智能|分享 来源 | 量子位 作者 | 西风 挑战Transformer,MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。 LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。 LFM架构还有很好的可扩展性,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美。 LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。 这种架构还有一个特点:在内存效率方面特别强。 基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。 小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。 LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。 其后训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览