专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
今天看啥  ›  专栏  ›  SegmentFault思否

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

SegmentFault思否  · 公众号  · 程序员  · 2024-06-06 15:35
    

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Transformer 挑战者、新架构 Mamba,刚刚更新了第二代: Mamba-2 ,状态空间扩大 8 倍,训练速度提高 50%! 更重要的是,团队研究发现原来 Transformer 和状态空间模型 (SSM) 竟然是近亲?? ‍ 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现: Transformer 中的注意力机制与 SSM 存在着非常紧密的数学联系。 团队通过提出一个叫 结构化状态空间二元性 (Structured State Space Duality,SSD) 的理论框架,把这两大模型家族统一了起来。 Mamba 一代论文年初被 ICLR 拒稿,当时还 让许多学者集体破防,引起一阵热议 。 这次二代论文在理论和实验上都更丰富了,成功入选 ICML 2024。 作者依然是 Albert Gu 和 Tri Dao 两位。 他们透露,论文题目中“Transformers are SSMs”是致敬了 4 年前的线性注意力经典论文“Tr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览