专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习与NLP

Mamba2,比Transformer速度提高了8倍!

深度学习与NLP  · 公众号  ·  · 2024-10-13 00:00

文章预览

大家好,今天为大家介绍一篇Mamba最新研究论文。本文提出了一个新框架Structured State Space Duality (SSD),通过结构化矩阵的视角,统一了State Space Model (SSM)和注意力机制。 基于该框架设计的Mamba-2,其核心是对Mamba中SSM进行了改进,在与Transformer表现相当的同时,速度提高了2-8倍 。 1. 基本信息 论文题目:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 作者:Tri Dao, Albert Gu(按照last name排序) 作者研究单位: Department of Computer Science, Princeton University Machine Learning Department, Carnegie Mellon University 论文代码:https://github.com/state-spaces/mamba 2. 研究背景 我们都知道Transformer注意力机制存在问题:训练时间随序列长度呈二次关系增长,自回归生成需要线性增长的cache。 与之相比,structured state-space models (SSMs)这一系的模型训练时间与序列长度呈线性关系,生成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章