专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
今天看啥  ›  专栏  ›  大模型智能

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

大模型智能  · 公众号  ·  · 2024-07-15 00:00

文章预览

大模型智能|分享 来源 | 新智元 编辑 | 乔杨 去年12月,CMU、普林斯顿的两位华人学者 Albert Gu和Tri Dao一举推出了Mamba架构 ,向Transformer多年的霸主地位发起挑战。 论文地址:https://arxiv.org/abs/2312.00752 完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振,Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。 论文发表后的6个月中,两位作者发现,虽然Mamba很强大,但是大家依旧更关注各种Transformer的变体。 毕竟整个学术社区在注意力机制上深耕多年,从模型、标准库到算子、GPU,此时完全抛弃之前的研究、转向Mamba的SSM不太现实,也让Mamba架构显得非常格格不入。 于是,我们看到Mamba-2的论文在更高层面上将SSM和注意力机制统一了起来,同时相比Mamba-1实现了2~8倍的速度提升。 论文地址 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览