文章预览
作者 | 新智元 点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 去年12月,CMU、普林斯顿的两位华人学者 Albert Gu和Tri Dao一举推出了Mamba架构 ,向Transformer多年的霸主地位发起挑战。 论文地址: https://arxiv.org/abs/2312.00752 完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振,Jim Fan大佬也发推赞叹「为推翻Transformer的研究感到兴奋」。 论文发表后的6个月中,两位作者发现,虽然Mamba很强大,但是大家依旧更关注各种Transformer的变体。 毕竟整个学术社区在注意力机制上深耕多年,从模型、标准
………………………………