专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Adam学习率Scaling law的「浪涌现象」

AINLP · 公众号 · · 2024-06-13 09:47

文章预览

Batch size放大后，对应放大学习率是一个约定俗成的规律，但随着现在模型尺寸、计算量的增大、不同优化器的研发，这个结论是否仍然成立仍有待探究。近期腾讯的一篇工作就得到了不一样的结论。下面有请一作李帅朋为大家分享他们的发现～平时工作学习中，训练模型时候比较重要的两个超参数是Batch size和Learning rate。在采用不同Batch size训练时候，该如何调整学习率？不同的优化器上Batch size对最佳学习率的选择是否有影响？为了回答上面的问题，我们过往的研究做了一些调研： 2014年Alex在自己的“笔记”（https://arxiv.org/pdf/1404.5997）中记录过这样一段话： Theory suggests that when multiplying the batch size by k, one should multiply the learning rate by sqrt(k) to keep the variance in the gradient expectation constant. 但是2018 年的一份工作（https://arxiv.org/pdf/1706.02677）中指出： To t ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国药闻 · 交易额增长超九成！“China Travel”邂逅中国年

7 小时前

质安选 · 食品安全=行为【工作服对于食品安全的影响】

昨天

市监学习驿站 · 2家“俄罗斯商品馆”栽了，原因是...

3 天前

医学新视点 · 近100%患者持久应答持续5年！单抗疗法为这2类人群带来长期获益

3 月前

洪观新闻 · 孙继海当选辽宁省足协副主席

1 月前

新闻晨报 · 悲剧不到一天，韩国今早又一客机发生意外！起飞不久出现异常……

1 月前