专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

​当Batch Size增大时,学习率该如何随之变化?

PaperWeekly  · 公众号  · 科研  · 2024-11-22 23:20
    

文章预览

©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 随着算力的飞速进步,有越多越多的场景希望能够实现“算力换时间”,即通过堆砌算力来缩短模型训练时间。 理想情况下,我们希望投入 倍的算力,那么达到同样效果的时间则缩短为 ,此时总的算力成本是一致的。这个“希望”看上去很合理和自然,但实际上并不平凡,即便我们不考虑通信之类的瓶颈,当算力超过一定规模或者模型小于一定规模时,增加算力往往只能增大 Batch Size。 然而, 增大 Batch Size 一定可以缩短训练时间并保持效果不变吗? 这就是接下来我们要讨论的话题:当 Batch Size 增大时,各种超参数尤其是学习率该如何调整,才能保持原本的训练效果并最大化训练效率?我们也可以称之为 Batch Size 与学习率之间的 Scaling Law。 方差视角 直觉上,当 Batch S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览