专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

Transformer升级之路:RoPE的底数设计原则

PaperWeekly  · 公众号  · 科研  · 2024-06-16 13:04
    

文章预览

©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 我 们知道,在 RoPE 中频率的计算公式为 ,底数 默认值为 10000。目前 Long Context 的主流做法之一是,先在 上用短文本预训练,然后调大 并在长文本微调,其出发点是 《Transformer升级之路:RoPE是一种β进制编码》 里介绍的 NTK-RoPE,它本身有较好长度外推性,换用更大的 再微调相比不加改动的微调,起始损失更小,收敛也更快。 该过程给人的感觉是:调大 完全是因为“先短后长”的训练策略,如果一直都用长文本训练似乎就没必要调大 了? 近期的论文《Base of RoPE Bounds Context Length》 [1] 试图回答这个问题,它基于一个期望性质研究了 的下界,由此指出更大的训练长度本身就应该选择更大的底数,与训练策略无关。整个分析思路颇有启发性,接下来我们一起来 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览