今天看啥  ›  专栏  ›  NLP工作站

从ROPE到Yarn, 一条通用公式速通长文本大模型中的位置编码

NLP工作站  · 公众号  ·  · 2025-01-09 17:44
    

文章预览

今天给大家带来一篇知乎好友@Whisper的文章,详细介绍长文本大模型中从ROPE到Yarn的的位置编码。 知乎:https://zhuanlan.zhihu.com/p/15311461897  从Qwen2.5到Deepseek V3, Yarn几乎已经是各家LLM做长文本外推的标配组件 (相比Pretrain微乎其微的资源消耗获得至少16倍的长度外推)。 然而我最近在和很多做LLM的朋友交流发现大家对长文本的认知还停留在ROPE的时代。本文尝试用一条通用公式,带你以最简洁的方式彻底理解ROPE及其演化的变种逻辑,梳理以下长文本外推的方法本质: ROPE Position Interpolation NTK-Aware Interpolation Dyanmic NTK Interpolation NTK-by-parts Interpolation Yarn 后续ROPE的各类变体会不断更新记录在本文,欢迎点赞关注追踪最新进展。 1.位置编码的通用公式 无论是ROPE还是它的所有变种,本质上都可以被以下公式所统一: 这里: 是输入向量。 是位置索引。 是频率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览