Mamba2，比Transformer速度提高了8倍！

深度学习与NLP · 公众号 · · 2024-10-13 00:00

文章预览

大家好,今天为大家介绍一篇Mamba最新研究论文。本文提出了一个新框架Structured State Space Duality (SSD),通过结构化矩阵的视角,统一了State Space Model (SSM)和注意力机制。基于该框架设计的Mamba-2,其核心是对Mamba中SSM进行了改进,在与Transformer表现相当的同时,速度提高了2-8倍。 1. 基本信息论文题目:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 作者:Tri Dao, Albert Gu(按照last name排序) 作者研究单位: Department of Computer Science, Princeton University Machine Learning Department, Carnegie Mellon University 论文代码:https://github.com/state-spaces/mamba 2. 研究背景我们都知道Transformer注意力机制存在问题:训练时间随序列长度呈二次关系增长,自回归生成需要线性增长的cache。与之相比,structured state-space models (SSMs)这一系的模型训练时间与序列长度呈线性关系,生成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博