Transformer升级之路：RoPE的底数设计原则

数据派THU · 公众号 · 大数据 · 2024-07-16 17:00

文章预览

来源：PaperWeekly 本文约3200字，建议阅读 6 分钟本文简单介绍了论文《Base of RoPE Bounds Context Length》。我们知道，在 RoPE 中频率的计算公式为，底数默认值为 10000。目前 Long Context 的主流做法之一是，先在上用短文本预训练，然后调大并在长文本微调，其出发点是《Transformer升级之路：RoPE是一种β进制编码》里介绍的 NTK-RoPE，它本身有较好长度外推性，换用更大的再微调相比不加改动的微调，起始损失更小，收敛也更快。该过程给人的感觉是：调大完全是因为“先短后长”的训练策略，如果一直都用长文本训练似乎就没必要调大了？近期的论文《Base of RoPE Bounds Context Length》[1] 试图回答这个问题，它基于一个期望性质研究了的下界，由此指出更大的训练长度本身就应该选择更大的底数，与训练策略无关。整个分析思路 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博