Mamba-2：超越 Transformer 的新架构，训练效率大幅提升！

人工智能学家 · 公众号 · AI · 2024-06-05 17:35

文章预览

机器之心报道来源：机器学习算法与Python学习自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。几个月前，Mamba 的出现打破了这一局面，它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布，这些状态空间模型 (SSM) 在中小型规模上已经实现了与 Transformers 匹敌，甚至超越 Transformers。 Mamba 的作者只有两位，一位是卡内基梅隆大学机器学习系助理教授 Albert Gu，另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授 Tri Dao。 Mamba 面世之后的这段时间里，社区反应热烈。可惜的是，Mamba 的论文却惨遭 ICLR 拒 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · //@程序员邹欣://@张作风流行病学教授UCLA:医学上的精神-20241223103339

2 天前

爱可可-爱生活 · 【深度思考第二十五篇：AI时代的教育创新不是要否定传统，而是要在-20241223062915

2 天前

爱可可-爱生活 · 本文以推理主义语义学为框架，论证了大型语言模型的反表征主义特性，-20241223053043

2 天前

爱可可-爱生活 · 本文提出了一种可解释的程序错误检测方法，通过构建视觉语言模型的自-20241223055015

2 天前

宝玉xp · 转发微博-20241223034119

2 天前

YNTV2都市条形码 · 全省首例！人工心脏成功植入患者体内

6 月前

南昌楼市情报 · 耗时3年！全线基本打通！南昌这条南北大动脉计划今年通车！

6 月前

中建一局五公司 · 【高质量发展】叶青一行赴安徽分公司开展市场营销、专项收款工作现场调研

2 月前