定期分享机器学习领域原创文章,公众号内容涵盖了机器学习算法和python数据分析等文章,目前监督学习方法的文章应有尽有,非监督学习的原创文章一直在更新,欢迎机器学习爱好者和从业者的加入,互相学习,共同成长。
今天看啥  ›  专栏  ›  机器学习算法那些事

TPAMI 2024.9 | AdamW为什么比其他优化器具有更小的泛化误差

机器学习算法那些事  · 公众号  ·  · 2024-09-10 08:34

文章预览

论文标题:Towards Understanding Convergence and Generalization of AdamW 论文翻译:关于理解 AdamW 的收敛性和泛化能力 论文链接:https://ieeexplore.ieee.org/document/10480574 论文作者:Pan Zhou; Xingyu Xie;Zhouchen Lin;Shuicheng Yan 摘要 AdamW 通过添加解耦的权重衰减来修改 Adam,以在每次训练迭代中减少网络权重。对于自适应算法,这种解耦的权重衰减不会影响特定的优化步骤,且不同于广泛使用的 L2 正则化器,后者通过改变一阶和二阶梯度矩来改变优化步骤。尽管 AdamW 在实践中取得了巨大成功,但关于 AdamW 相较于 Adam 和 L2 正则化的 Adam(L2-Adam)的收敛性和泛化能力提升仍未得到研究。为了解决这一问题,我们证明了 AdamW 的收敛性,并阐明了其相较于 Adam 和 L2-Adam 的泛化优势。具体来说,AdamW 可以证明是收敛的,但它最小化的是一个动态正则化损失,该损失结合了原始损失和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览