专栏名称: CVer
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
今天看啥  ›  专栏  ›  CVer

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

CVer  · 公众号  · AI 科技自媒体  · 2024-10-25 23:59
    

主要观点总结

本文介绍了关于最新高效模型如Mamba在推理能力上的研究,探讨了包括Sparse Transformer、Linear Transformer等在内的模型在思维链推理方面的局限性。同时,文章还介绍了北大和清华研究团队的理论探讨和实验结果,以及关于如何提升其他模型使用思维链的能力的一些解决方案。

关键观点总结

关键观点1: 高效模型如Mamba在推理能力上不及标准Transformer

北大和清华的研究团队发现,包括Mamba在内的许多高效模型在结构上存在局限性,即使应用思维链,其理论上的能力上限仍无法解决多种实际推理问题。这些模型在推理过程中需要处理的计算复杂度较高,无法以较小的模型尺寸正确生成所有可能的输出序列。

关键观点2: 推理任务的局部性对高效模型的推理能力有影响

北大研究团队发现,推理任务的局部性是影响高效模型推理能力的重要因素。当推理任务具有较好的局部性时,许多高效模型能够以理论更优的推理速度完美解决问题。

关键观点3: RNN模型在使用思维链后获得的能力与Transformer存在巨大差距

清华的研究团队比较了RNN模型和Transformer模型在检索、关联回忆、计数等基本问题上的表达能力差异,发现对于相同的问题规模,RNN模型无法使用任意长的思维链完成这些任务,而固定大小的Transformer则可以。

关键观点4: 引入上下文检索器可增强RNN使用思维链的能力

清华的研究团队还提出,通过引入上下文检索器或使用一层Transformer作为隐式上下文检索器,可以大大增强RNN使用思维链后获得的能力。


文章预览

点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入—> 【Mamba/多模态/扩散】交流群 添加微信号:CVer2233,小助手会拉你进群! 扫描下方二维码,加入CVer学术星球 ! 可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料,及最前沿应用 !发论文/搞科研/涨薪,强烈推荐! 转载自:机器之心 北京大学的工作来自智能学院王立威、贺笛老师课题组,发表于ICML 2024。作者包括北京大学图灵班本科生杨铠;苏黎世联邦理工学院硕士生Jan Ackermann;北京大学智能学院博士生何震宇、冯古豪、张博航;纽约大学博士生冯韫禛;北京智源研究院研究员叶启威;清华大学的工作来自于明年即将入职清华大学交叉信息院做助理教授、目前在加州大学伯克利分校 Simons Institute 做博士后的吕凯风研究员。作者包括斯坦福在读一年级博士温凯 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览