用最酷的LR，训最猛的模型

深度学习与NLP · 公众号 · · 2024-06-05 16:05

文章预览

预训练中，除了模型尺寸、数据、计算量之外，比较重要的就是batch size和learning rate这两个超参数了。从DeepSeek的scaling law工作 [1] 中可以看到，不同的学习率可以让loss有一定的波动，影响模型收敛。虽然近两年主流LLM都采用cosine decay的学习率策略，但它有个关键问题，就是对续训很不友好。早在Chinchilla的工作中就提到，cosine策略的衰减周期需要与训练步数一致，过短或过长都不会收敛到当前的局部最优。如下图中，14k步最优值是cosine正好衰减到14k步，而其他设置都有一定差距：这个硬性的设置就让续训变得比较难，因为预训练结束时模型的LR已经降到了比较低，收敛到局部最优，续训如果LR设置过大可能会让效果变差，过低的话收敛效率也低。告别Cosine 在近期清华的MiniCPM [2] 工作中，作者提出了一个WSD策略（Warmup-Stable-Decay），即快速warmup后， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

知乎日报 · 最乏味奥斯卡？《阿诺拉》获五项大奖，这部电影质量如何？如何评价本届获奖名单？

11 小时前

知乎日报 · 喜剧恐怖片《诡才之道》值得一看吗？

11 小时前

知乎日报 · 知乎瞎扯｜有哪些让人不慎暴露身份的行为？

昨天

知乎日报 · 全网独家！DeepSeek 模型的成本利润率到底有多高？官方下场公布细节

2 天前

知乎日报 · 情侣之间聊什么话题能增进感情？

3 天前

四局装备 · 【团青工作】缘自七夕快乐来袭——长治公司青年员工七夕趣味活动圆满收官

6 月前

小蒜苗长 · 这一代的vivo X200系列有一个很有意思的变化，X200标准-20250111074354

1 月前