专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

RoPE的远距离衰减

AINLP  · 公众号  ·  · 2024-06-26 21:38

文章预览

有朋友问到了关于RoPE远距离衰减的问题,这里给出几个示例,提供一个直观理解的视角。 之前对RoPE的梳理参考 理解LLM位置编 ‍ 码:RoPE 。 1.公式 回顾一下RoPE的实现。RoPE通过在q和k上分别乘一个旋转矩阵,实现了相对距离编码的功能。 对于position为m的q或者k,旋转矩阵如下 实际实现时,高效率的实现如下 也可以让第二项保持输入向量的元素位置,变成 huggingface的实现中预先把各个位置的cos额sin向量都计算好了,可以重复利用,这样看后面这样实现的效率会更高一点。 2.远距离衰减 远距离衰减指的是随着q和k的相对距离的增大,加入位置编码之后的内积应该随着距离增大而减小,这样相当于离得远的token分配到的attention会比较小,而离得近的token会得到更多的注意力。 这样的特性确实直觉上比较符合人类的注意力机制。 把各个参数(base、window siz ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览