专栏名称: 机器学习算法那些事

定期分享机器学习领域原创文章，公众号内容涵盖了机器学习算法和python数据分析等文章，目前监督学习方法的文章应有尽有，非监督学习的原创文章一直在更新，欢迎机器学习爱好者和从业者的加入，互相学习，共同成长。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

TPAMI 2024.9 | AdamW为什么比其他优化器具有更小的泛化误差

机器学习算法那些事 · 公众号 · · 2024-09-10 08:34

文章预览

论文标题：Towards Understanding Convergence and Generalization of AdamW 论文翻译：关于理解 AdamW 的收敛性和泛化能力论文链接：https://ieeexplore.ieee.org/document/10480574 论文作者：Pan Zhou; Xingyu Xie;Zhouchen Lin;Shuicheng Yan 摘要 AdamW 通过添加解耦的权重衰减来修改 Adam，以在每次训练迭代中减少网络权重。对于自适应算法，这种解耦的权重衰减不会影响特定的优化步骤，且不同于广泛使用的 L2 正则化器，后者通过改变一阶和二阶梯度矩来改变优化步骤。尽管 AdamW 在实践中取得了巨大成功，但关于 AdamW 相较于 Adam 和 L2 正则化的 Adam（L2-Adam）的收敛性和泛化能力提升仍未得到研究。为了解决这一问题，我们证明了 AdamW 的收敛性，并阐明了其相较于 Adam 和 L2-Adam 的泛化优势。具体来说，AdamW 可以证明是收敛的，但它最小化的是一个动态正则化损失，该损失结合了原始损失和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博