注册
登录
专栏名称:
AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
ZaomeDesign
·
每日灵感丨十一月十八日
·
昨天
加措上师语录
·
觉悟的勇气:年老的织工汤提巴
·
1 周前
今天看啥
›
专栏
›
AINLP
RoPE的远距离衰减
AINLP
·
公众号
· · 2024-06-26 21:38
文章预览
有朋友问到了关于RoPE远距离衰减的问题,这里给出几个示例,提供一个直观理解的视角。 之前对RoPE的梳理参考 理解LLM位置编 码:RoPE 。 1.公式 回顾一下RoPE的实现。RoPE通过在q和k上分别乘一个旋转矩阵,实现了相对距离编码的功能。 对于position为m的q或者k,旋转矩阵如下 实际实现时,高效率的实现如下 也可以让第二项保持输入向量的元素位置,变成 huggingface的实现中预先把各个位置的cos额sin向量都计算好了,可以重复利用,这样看后面这样实现的效率会更高一点。 2.远距离衰减 远距离衰减指的是随着q和k的相对距离的增大,加入位置编码之后的内积应该随着距离增大而减小,这样相当于离得远的token分配到的attention会比较小,而离得近的token会得到更多的注意力。 这样的特性确实直觉上比较符合人类的注意力机制。 把各个参数(base、window siz ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
ZaomeDesign
·
每日灵感丨十一月十八日
昨天
加措上师语录
·
觉悟的勇气:年老的织工汤提巴
1 周前
自动驾驶之心
·
都在落地端到端!手撕代码,今天一起来梳理下UniAD的实现
4 月前
三年一倍
·
两次爆仓、妻离子散!讲述散户真实的血泪教训,给大家一些警醒!
2 月前
科Way
·
TA要做中国40万家中小微制造企业可以用的管理软件
2 月前