专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

Transformer升级之路:RoPE的底数设计原则

数据派THU  · 公众号  · 大数据  · 2024-07-16 17:00

文章预览

来源:PaperWeekly 本文 约3200字 ,建议阅读 6 分钟 本文简单介绍了论文《Base of RoPE Bounds Context Length》。 我们知道,在 RoPE 中频率的计算公式为  ,底数   默认值为 10000。目前 Long Context 的主流做法之一是,先在   上用短文本预训练,然后调大   并在长文本微调,其出发点是 《Transformer升级之路:RoPE是一种β进制编码》 里介绍的 NTK-RoPE,它本身有较好长度外推性,换用更大的   再微调相比不加改动的微调,起始损失更小,收敛也更快。 该过程给人的感觉是:调大  完全是因为“先短后长”的训练策略,如果一直都用长文本训练似乎就没必要调大   了? 近期的论文《Base of RoPE Bounds Context Length》[1] 试图回答这个问题,它基于一个期望性质研究了   的下界,由此指出更大的训练长度本身就应该选择更大的底数,与训练策略无关。整个分析思路 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览