Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

大模型智能 · 公众号 · · 2024-07-15 00:00

文章预览

大模型智能｜分享来源 | 新智元编辑 | 乔杨去年12月，CMU、普林斯顿的两位华人学者 Albert Gu和Tri Dao一举推出了Mamba架构，向Transformer多年的霸主地位发起挑战。论文地址：https://arxiv.org/abs/2312.00752 完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振，Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。论文发表后的6个月中，两位作者发现，虽然Mamba很强大，但是大家依旧更关注各种Transformer的变体。毕竟整个学术社区在注意力机制上深耕多年，从模型、标准库到算子、GPU，此时完全抛弃之前的研究、转向Mamba的SSM不太现实，也让Mamba架构显得非常格格不入。于是，我们看到Mamba-2的论文在更高层面上将SSM和注意力机制统一了起来，同时相比Mamba-1实现了2～8倍的速度提升。论文地址 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国银河宏观 · 【中国银河宏观】产量调控有望缓解粗钢成本压力 ——物价高频数据周报（2024年6月24日-6月28日）

4 月前

云头条 · H3C 4.4亿、浪潮4.1亿、华为4亿、深信服3.2亿、联想2.9亿、曙光1.9亿、超聚变1.2亿、SmartX 1亿

4 月前

未来移动通信论坛 · 中国移动等发布全调度以太网全套标准及首套商用设备

1 月前

神外资讯 · 【期刊速览】World Neurosurgery | Online 2024年8月速览（五）

1 月前