文章预览
今天给大家带来一篇知乎好友@Whisper的文章,详细介绍长文本大模型中从ROPE到Yarn的的位置编码。 知乎:https://zhuanlan.zhihu.com/p/15311461897 从Qwen2.5到Deepseek V3, Yarn几乎已经是各家LLM做长文本外推的标配组件 (相比Pretrain微乎其微的资源消耗获得至少16倍的长度外推)。 然而我最近在和很多做LLM的朋友交流发现大家对长文本的认知还停留在ROPE的时代。本文尝试用一条通用公式,带你以最简洁的方式彻底理解ROPE及其演化的变种逻辑,梳理以下长文本外推的方法本质: ROPE Position Interpolation NTK-Aware Interpolation Dyanmic NTK Interpolation NTK-by-parts Interpolation Yarn 后续ROPE的各类变体会不断更新记录在本文,欢迎点赞关注追踪最新进展。 1.位置编码的通用公式 无论是ROPE还是它的所有变种,本质上都可以被以下公式所统一: 这里: 是输入向量。 是位置索引。 是频率
………………………………