文章预览
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2 ,状态空间扩大8倍,训练速度提高50%! 更重要的是,团队研究发现原来 Transformer和状态空间模型 (SSM) 竟然是近亲 ?? 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现: Transformer中的 注意力机制与SSM存在着非常紧密的数学联系。 团队通过提出一个叫 结构化状态空间二元性 (Structured State Space Duality,SSD) 的理论框架,把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿,当时还 让许多学者集体破防,引起一阵热议 。 这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。 作者依然是 Albert Gu 和 Tri Dao 两位。 他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs
………………………………