今天看啥  ›  专栏  ›  Python人工智能前沿

Mamba2,比Transformer速度提高了8倍!

Python人工智能前沿  · 公众号  ·  · 2024-10-11 21:52
    

文章预览

大家好,今天为大家介绍一篇Mamba最新研究论文。本文提出了一个新框架Structured State Space Duality (SSD),通过结构化矩阵的视角,统一了State Space Model (SSM)和注意力机制。 基于该框架设计的Mamba-2,其核心是对Mamba中SSM进行了改进,在与Transformer表现相当的同时,速度提高了2-8倍 。 1. 基本信息 论文题目:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 作者:Tri Dao, Albert Gu(按照last name排序) 作者研究单位: Department of Computer Science, Princeton University Machine Learning Department, Carnegie Mellon University 论文代码:https://github.com/state-spaces/mamba 2. 研究背景 我们都知道Transformer注意力机制存在问题:训练时间随序列长度呈二次关系增长,自回归生成需要线性增长的cache。 与之相比,structured state-space models (SSMs)这一系的模型训练时间与序列长度呈线性关系,生成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览