欢迎你来到深度学习算法与计算机视觉,这是一个专注于深度学习算法的公众号,是一个程序员分享心得体会的平台,欢迎加入我们的大家庭。添加个人账号:DL-CVer-RogerLi进入群聊,共同进步
目录
今天看啥  ›  专栏  ›  深度学习算法与计算机视觉

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

深度学习算法与计算机视觉  · 公众号  ·  · 2024-06-06 00:00
    

文章预览

深度学习算法与计算机视觉 | 分享 来源丨量子位 作者 | 梦晨 Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??‍ 两大主流序列建模架构,在此统一了。 没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。 团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。 Mamba一代论文年初被ICLR拒稿,当时还 让许多学者集体破防,引起一阵热议 。 这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。 作者依然是Albert Gu和Tri Dao两位。 他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transfor ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览