文章预览
前言 本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单单是为了配合“先短后长”的训练策略、继而利用 NTK-RoPE 来降低初始损失的折中选择。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 作者: 苏剑林 来源:PaperWeekly 仅用于学术分享,若侵权请联系删除 我 们知道,在 RoPE 中频率的计算公式为 ,底数 默认值为 10000。目前 Long Context 的主流做法之一是,先在 上用短文本预训练,然后调大 并在长文本微调,其出发点是 《Transformer升级之路:RoPE是一种β进制编码》 里介绍的 NTK-RoPE,它本身有较好长度外推性,换用更大的 再微
………………………………