多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

量子位 · 公众号 · AI · 2024-08-22 16:12

文章预览

明敏发自凹非寺量子位 | 公众号 QbitAI Attention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展：仅需1%计算量，新模型性能达 SOTA 。能做到这一点，还多亏了Transformer。通过将Transformer模型中的知识有效迁移到Mamba等替代架构中，模型能在保持较低计算成本的同时，性能更好。这就是由Mamba主创之一Albert Gu领衔的最新成果。值得一提的是，这种方法还适用于Mamba以外的非Transformer架构。从Transformer到SSMs Transformer由于依赖二次自注意力机制，所需计算量很大。二次自注意力机制能让模型在处理序列数据时有效捕捉序列内部的长距离依赖关系，但是由于二次时间复杂度（如果输入规模翻倍，模型计算所需时间增加4倍），导致处理长序列的计算成本很高。为了解决这个问题，学界提出了很多新架构，比如Mamba、RWKV等，它们的微调和推理成本更 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [LG]《Physics-informed kernel lea-20240929054803

10 小时前

宝玉xp · //@巍峰:哈哈哈哈哈哈//@动动枪DongDongGun:哈哈-20240928015549

昨天

爱可可-爱生活 · 通过引入模拟频率掩码和侧抑制的生物启发声学特征，改进了ASR系统-20240927050929

2 天前

爱可可-爱生活 · //@爱可可-爱生活: 欢迎参与～-20240927054905

2 天前

黄建同学 · 这个比较有用：Diffusers fast Inpaint#ai-20240925124944

4 天前

饭爷的江湖 · 有点后悔了。。

4 天前