专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model weekly | 第51期

AI TIME 论道  · 公众号  ·  · 2024-12-29 18:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation 许多位置编码(PEs)被设计成具有长期衰减的特性,这一设计基于一个根深蒂固且长期存在的归纳观点:距离当前位置越远的标记携带的信息越不相关。然而,本文认为,在大型语言模型(LLMs)的时代,长期衰减的概念已经过时,因为LLMs现在被应用于需要从任意位置精确检索上下文信息的任务。首先,本文对各种PEs进行了实证分析,展示了模型在形成全局U形模式的同时,本质上只学习了具有局部衰减模式的注意力,这与长期衰减的原则相矛盾。此外,本文对旋转位置编码(RoPE,LLMs中一种流行的相对位置编码)进行了详细分析,发现U形注意力是由一些学习到的组成部分引起的,这些组成部分也是限制RoPE表达能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览