专栏名称: NLP工作站

AIGC前沿知识分享&落地经验总结

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

秦皇岛晚报 · 长图丨传统古村落、美丽渔村、康养民宿……8条 ... · 11 小时前

乌兰察布云 · 自治区级名单公示！乌兰察布入选的有→ · 昨天

草原云北方新报 · 内蒙古首条跨盟市城际公交线路发车 · 2 天前

奔腾融媒都市全接触 · 公开征集！事关“草原英雄小姐妹” · 3 天前

今天看啥 › 专栏 › NLP工作站

从ROPE到Yarn, 一条通用公式速通长文本大模型中的位置编码

NLP工作站 · 公众号 · · 2025-01-09 17:44

文章预览

今天给大家带来一篇知乎好友@Whisper的文章，详细介绍长文本大模型中从ROPE到Yarn的的位置编码。知乎：https://zhuanlan.zhihu.com/p/15311461897 从Qwen2.5到Deepseek V3, Yarn几乎已经是各家LLM做长文本外推的标配组件（相比Pretrain微乎其微的资源消耗获得至少16倍的长度外推）。然而我最近在和很多做LLM的朋友交流发现大家对长文本的认知还停留在ROPE的时代。本文尝试用一条通用公式，带你以最简洁的方式彻底理解ROPE及其演化的变种逻辑，梳理以下长文本外推的方法本质： ROPE Position Interpolation NTK-Aware Interpolation Dyanmic NTK Interpolation NTK-by-parts Interpolation Yarn 后续ROPE的各类变体会不断更新记录在本文，欢迎点赞关注追踪最新进展。 1.位置编码的通用公式无论是ROPE还是它的所有变种，本质上都可以被以下公式所统一：这里：是输入向量。是位置索引。是频率 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

秦皇岛晚报 · 长图丨传统古村落、美丽渔村、康养民宿……8条精品路线邀你“乡”约河北！

11 小时前

秦皇岛晚报 · 长图丨传统古村落、美丽渔村、康养民宿……8条精品路线邀你“乡”约河北！

11 小时前

乌兰察布云 · 自治区级名单公示！乌兰察布入选的有→

昨天

草原云北方新报 · 内蒙古首条跨盟市城际公交线路发车

2 天前

奔腾融媒都市全接触 · 公开征集！事关“草原英雄小姐妹”

3 天前

奔腾融媒都市全接触 · 公开征集！事关“草原英雄小姐妹”

3 天前

人力资源和社会保障部 · @灵活就业人员：办理参保、领社保补贴，指南来了→

8 月前