专栏名称: 深度学习算法与计算机视觉

欢迎你来到深度学习算法与计算机视觉，这是一个专注于深度学习算法的公众号，是一个程序员分享心得体会的平台，欢迎加入我们的大家庭。添加个人账号：DL-CVer-RogerLi进入群聊，共同进步

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

深度学习算法与计算机视觉 · 公众号 · · 2024-06-06 00:00

文章预览

深度学习算法与计算机视觉 | 分享来源丨量子位作者 | 梦晨 Transformer挑战者、新架构Mamba，刚刚更新了第二代： Mamba-2，状态空间扩大8倍，训练速度提高50%！更重要的是，团队研究发现原来Transformer和状态空间模型（SSM）竟然是近亲？？‍ 两大主流序列建模架构，在此统一了。没错，这篇论文的提出的重磅发现：Transformer中的注意力机制与SSM存在着非常紧密的数学联系。团队通过提出一个叫结构化状态空间二元性（Structured State Space Duality，SSD）的理论框架，把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿，当时还让许多学者集体破防，引起一阵热议。这次二代论文在理论和实验上都更丰富了，成功入选ICML 2024。作者依然是Albert Gu和Tri Dao两位。他们透露，论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transfor ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博