Mamba2，比Transformer速度提高了8倍！

Python人工智能前沿 · 公众号 · · 2024-10-11 21:52

文章预览

大家好,今天为大家介绍一篇Mamba最新研究论文。本文提出了一个新框架Structured State Space Duality (SSD),通过结构化矩阵的视角,统一了State Space Model (SSM)和注意力机制。基于该框架设计的Mamba-2,其核心是对Mamba中SSM进行了改进,在与Transformer表现相当的同时,速度提高了2-8倍。 1. 基本信息论文题目:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 作者:Tri Dao, Albert Gu(按照last name排序) 作者研究单位: Department of Computer Science, Princeton University Machine Learning Department, Carnegie Mellon University 论文代码:https://github.com/state-spaces/mamba 2. 研究背景我们都知道Transformer注意力机制存在问题:训练时间随序列长度呈二次关系增长,自回归生成需要线性增长的cache。与之相比,structured state-space models (SSMs)这一系的模型训练时间与序列长度呈线性关系,生成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北美留学生观察 · 嫁给阿联酋王子的联合国假名媛们，正在删号退网……

3 小时前

北美留学生观察 · 最新：以色列军队逼近大马士革，仅剩20多公里

4 天前

北美留学生观察 · 福布斯中国推出留学行业系列评选，遴选中国优秀留学品牌及人物

4 天前

TD北美留学进化论 · 留学8年，我是如何赚到我人生中第一个50万？

4 天前

TD北美留学进化论 · 留学8年，我是如何赚到我人生中第一个50万？

4 天前

雨果网 · Meta丨“精准营销”越来越难？可能是“受众定位”没搞清楚！

3 月前

智汇光伏 · 粤水电：采购4GW光伏组件

3 月前

IPRdaily · #晨报#英飞特：拟参与知识产权资产证券化融资事项；国知局：选取河北等5省开展商标代理信用评价试点工作

3 月前