文章预览
预训练中,除了模型尺寸、数据、计算量之外,比较重要的就是batch size和learning rate这两个超参数了。从DeepSeek的scaling law工作 [1] 中可以看到,不同的学习率可以让loss有一定的波动,影响模型收敛。 虽然近两年主流LLM都采用cosine decay的学习率策略,但它有个关键问题,就是对续训很不友好 。早在Chinchilla的工作中就提到,cosine策略的衰减周期需要与训练步数一致,过短或过长都不会收敛到当前的局部最优。如下图中,14k步最优值是cosine正好衰减到14k步,而其他设置都有一定差距: 这个硬性的设置就让续训变得比较难,因为预训练结束时模型的LR已经降到了比较低,收敛到局部最优,续训如果LR设置过大可能会让效果变差,过低的话收敛效率也低 。 告别Cosine 在近期清华的MiniCPM [2] 工作中,作者提出了一个WSD策略(Warmup-Stable-Decay),即快速warmup后,
………………………………