专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

腾讯混元&北大| 发现「浪涌现象」,解决学习率调参难题

AINLPer  · 公众号  ·  · 2024-06-05 21:31
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 过去十年间,基于随机梯度下降(SGD)的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中,Adam 及其变种最受追捧。无论是 SGD,还是 Adam,亦或是其他优化器,最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。 从直觉上讲,影响 Learning rate 取值的重要因素是 Batch size。不知你在学习炼丹术时,是否遇到或者思考过入如下问题: 我的 Batch size 增加一倍,Learning rate 该怎么调整? 网上有说 Batch size 和 Learning rate 是线性放缩,也有说是平方根放缩,到底该按照哪个调整? 为什么我按照网上说的经验关系调整之后效果反而变差了? 针对上述问题,腾讯混元联合北京大学基于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览