专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

​NeurIPS 2024 | 中科院自动化所提出MetaLA!线性模型架构的大一统

PaperWeekly  · 公众号  · 科研  · 2024-12-11 22:36
    

文章预览

©PaperWeekly 原创 · 作者 |  李国齐课题组 单位 |  中国科学院自动化所 目前,各种线性复杂度模型来取代 Transformer 结构中的传统 Softmax 注意力被提出,例如线性 Transformer(LinFormer) [1][2] ,状态空间模型(SSM) [3][4]  和线性 RNN(LinRNN) [5][6][7] 。 然而,这些线性模型的最佳设计仍然是一个悬而未决的问题。在这项工作中,本研究试图从理论角度找到 Softmax 注意力的最佳线性近似来回答这个问题。 我们首先将现有的线性复杂度模型统一为线性注意力形式,然后确定最佳线性注意力设计的三个条件:i)动态记忆能力;ii)静态近似能力;iii)最小参数近似。 我们发现当前的线性模型都不能满足所有三个条件,导致性能不佳。相反,我们提出了元线性注意力(MetaLA)作为满足这些条件的解决方案。我们在多查询联想回忆 (MQAR) 任务、语言建模、图像分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览