专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

量子位  · 公众号  · AI  · 2024-06-04 12:42
    

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2 ,状态空间扩大8倍,训练速度提高50%! 更重要的是,团队研究发现原来 Transformer和状态空间模型 (SSM) 竟然是近亲 ?? ‍ 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现: Transformer中的 注意力机制与SSM存在着非常紧密的数学联系。 团队通过提出一个叫 结构化状态空间二元性 (Structured State Space Duality,SSD) 的理论框架,把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿,当时还 让许多学者集体破防,引起一阵热议 。 这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。 作者依然是 Albert Gu 和 Tri Dao 两位。 他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览