专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA

量子位  · 公众号  · AI  · 2024-08-22 16:12

文章预览

明敏 发自 凹非寺 量子位 | 公众号 QbitAI Attention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展: 仅需1%计算量 ,新模型性能达 SOTA 。 能做到这一点,还多亏了Transformer。 通过将Transformer模型中的知识有效迁移到Mamba等替代架构中,模型能在保持较低计算成本的同时,性能更好。 这就是由Mamba主创之一Albert Gu领衔的最新成果。 值得一提的是,这种方法还 适用于Mamba以外 的非Transformer架构。 从Transformer到SSMs Transformer由于依赖二次自注意力机制,所需计算量很大。 二次自注意力机制能让模型在处理序列数据时有效捕捉序列内部的长距离依赖关系,但是由于二次时间复杂度 (如果输入规模翻倍,模型计算所需时间增加4倍) ,导致处理长序列的计算成本很高。 为了解决这个问题,学界提出了很多新架构,比如Mamba、RWKV等,它们的微调和推理成本更 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览