用最酷的LR，训最猛的模型

深度学习与NLP · 知乎专栏 · · 2024-07-22 11:12

文章预览

预训练中，除了模型尺寸、数据、计算量之外，比较重要的就是batch size和learning rate这两个超参数了。从DeepSeek的scaling law工作 [1] 中可以看到，不同的学习率可以让loss有一定的波动，影响模型收敛。虽然近两年主流LLM都采用cosine decay的学习率策略，但它有个关键问题，就是对续训很不友好。早在Chinchilla的工作中就提到，cosine策略的衰减周期需要与训练步数一致，过短或过长都不会收敛到当前的局部最优。如下图中，14k步最优值是cosine正好衰减到14k步，而其他设置都有一定差距：这个硬性的设置就让续训变得比较难，因为预训练结束时模型的LR已经降到了比较低，收敛到局部最优，续训如果LR设置过大可能会让效果变差，过低的话收敛效率也低。告别Cosine 在近期清华的MiniCPM [2] 工作中，作者提出了一个WSD策略（Warmup-Stable-Decay），即快速warmup后， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博