文章预览
大家好,今天为大家介绍一篇Mamba最新研究论文。本文提出了一个新框架Structured State Space Duality (SSD),通过结构化矩阵的视角,统一了State Space Model (SSM)和注意力机制。 基于该框架设计的Mamba-2,其核心是对Mamba中SSM进行了改进,在与Transformer表现相当的同时,速度提高了2-8倍 。 1. 基本信息 论文题目:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 作者:Tri Dao, Albert Gu(按照last name排序) 作者研究单位: Department of Computer Science, Princeton University Machine Learning Department, Carnegie Mellon University 论文代码:https://github.com/state-spaces/mamba 2. 研究背景 我们都知道Transformer注意力机制存在问题:训练时间随序列长度呈二次关系增长,自回归生成需要线性增长的cache。 与之相比,structured state-space models (SSMs)这一系的模型训练时间与序列长度呈线性关系,生成
………………………………