新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

量子位 · 公众号 · AI · 2024-06-04 12:42

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI Transformer挑战者、新架构Mamba，刚刚更新了第二代： Mamba-2 ，状态空间扩大8倍，训练速度提高50%！更重要的是，团队研究发现原来 Transformer和状态空间模型（SSM）竟然是近亲？？ ‍ 两大主流序列建模架构，在此统一了。没错，这篇论文的提出的重磅发现： Transformer中的注意力机制与SSM存在着非常紧密的数学联系。团队通过提出一个叫结构化状态空间二元性（Structured State Space Duality，SSD）的理论框架，把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿，当时还让许多学者集体破防，引起一阵热议。这次二代论文在理论和实验上都更丰富了，成功入选ICML 2024。作者依然是 Albert Gu 和 Tri Dao 两位。他们透露，论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 为什么“AI Agents”还没有真正到来？这个热门概念背后，藏-20250101113746

14 小时前

黄建同学 · 无奖竞猜🎁评论区猜猜哪个是可灵1.6（另一个是可灵1.5）↓ -20241231073433

昨天

宝玉xp · 转发微博-20241230170001

2 天前

爱可可-爱生活 · 【MLC-Python：一个 Python 优先的工具包，旨在简-20241230124927

2 天前

水浑调研 · 一些信息 1229

3 天前

传媒行业招聘 · 中国新闻网招聘！

6 月前

程序员鱼皮 · 6月，终于迈过了4W这道坎！

5 月前

量化投资与机器学习 · 2024 Q3最新：国内『量化私募』管理人AUM图谱出炉！

3 月前