今天看啥  ›  专栏  ›  NLP PaperWeekly

腾讯混元 | Adam学习率Scaling law的「浪涌现象」

NLP PaperWeekly  · 公众号  ·  · 2024-06-07 14:28
    

文章预览

平时工作学习中, 训练模型时候比较重要的两个超参数是Batch size和Learning rate 。 在采用不同Batch size训练时候,该如何调整学习率?不同的优化器上Batch size对最佳学习率的选择是否有影响? 为了回答上面的问题,我们过往的研究做了一些调研:2014年 Alex 在自己的“笔记”(https://arxiv.org/pdf/1404.5997)中记录过这样一段话: Theory suggests that when multiplying the batch size by k, one should multiply the learning rate by √ k to keep the variance in the gradient expectation constant. 他说理论 建议学习率应该随着Batch size的平方根放缩。 但是2018 年的一份工作(https://arxiv.org/pdf/1706.02677)中指出: To tackle this unusually large minibatch size, we employ a simple and hyper-parameter-free linear scaling rule to adjust the learning rate. While this guideline is found in earlier work [21, 4], its empirical limits are not well understood and informally ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览