文章预览
深度学习算法与计算机视觉 | 分享 来源丨量子位 作者 | 梦晨 Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲?? 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。 团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿,当时还 让许多学者集体破防,引起一阵热议 。 这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。 作者依然是Albert Gu和Tri Dao两位。 他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transfor
………………………………