Mamba真比Transformer更优吗？混合架构才是最优解！

自动驾驶Daily · 公众号 · · 2024-07-15 07:30

文章预览

作者 | 新智元点击下方卡片，关注“ 自动驾驶Daily ”公众号戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询去年12月，CMU、普林斯顿的两位华人学者 Albert Gu和Tri Dao一举推出了Mamba架构，向Transformer多年的霸主地位发起挑战。论文地址： https://arxiv.org/abs/2312.00752 完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振，Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。论文发表后的6个月中，两位作者发现，虽然Mamba很强大，但是大家依旧更关注各种Transformer的变体。毕竟整个学术社区在注意力机制上深耕多年，从模型、标准 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博