专栏名称: 自动驾驶Daily
专注自动驾驶与AI
目录
相关文章推荐
今天看啥  ›  专栏  ›  自动驾驶Daily

Mamba真比Transformer更优吗?混合架构才是最优解!

自动驾驶Daily  · 公众号  ·  · 2024-07-15 07:30
    

文章预览

作者 | 新智元 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我->  领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 去年12月,CMU、普林斯顿的两位华人学者 Albert Gu和Tri Dao一举推出了Mamba架构 ,向Transformer多年的霸主地位发起挑战。 论文地址: https://arxiv.org/abs/2312.00752 完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振,Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。 论文发表后的6个月中,两位作者发现,虽然Mamba很强大,但是大家依旧更关注各种Transformer的变体。 毕竟整个学术社区在注意力机制上深耕多年,从模型、标准 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览