文章预览
Batch size放大后,对应放大学习率是一个约定俗成的规律,但随着现在模型尺寸、计算量的增大、不同优化器的研发,这个结论是否仍然成立仍有待探究。近期腾讯的一篇工作就得到了不一样的结论。下面有请一作 李帅朋 为大家分享他们的发现~ 平时工作学习中,训练模型时候比较重要的两个超参数是Batch size和Learning rate。在采用不同Batch size训练时候,该如何调整学习率?不同的优化器上Batch size对最佳学习率的选择是否有影响? 为了回答上面的问题,我们过往的研究做了一些调研: 2014年Alex在自己的“笔记”(https://arxiv.org/pdf/1404.5997)中记录过这样一段话: Theory suggests that when multiplying the batch size by k, one should multiply the learning rate
by sqrt(k) to keep the variance in the gradient expectation constant. 但是2018 年的一份工作(https://arxiv.org/pdf/1706.02677)中指出: To t
………………………………