文章预览
论文标题:Towards Understanding Convergence and Generalization of AdamW 论文翻译:关于理解 AdamW 的收敛性和泛化能力 论文链接:https://ieeexplore.ieee.org/document/10480574 论文作者:Pan Zhou; Xingyu Xie;Zhouchen Lin;Shuicheng Yan 摘要 AdamW 通过添加解耦的权重衰减来修改 Adam,以在每次训练迭代中减少网络权重。对于自适应算法,这种解耦的权重衰减不会影响特定的优化步骤,且不同于广泛使用的 L2 正则化器,后者通过改变一阶和二阶梯度矩来改变优化步骤。尽管 AdamW 在实践中取得了巨大成功,但关于 AdamW 相较于 Adam 和 L2 正则化的 Adam(L2-Adam)的收敛性和泛化能力提升仍未得到研究。为了解决这一问题,我们证明了 AdamW 的收敛性,并阐明了其相较于 Adam 和 L2-Adam 的泛化优势。具体来说,AdamW 可以证明是收敛的,但它最小化的是一个动态正则化损失,该损失结合了原始损失和
………………………………