文章预览
近年来,深度学习取得了显著成功,但训练神经网络通常涉及一定的猜测和超参数调优。优化方法的一个关键方面是“隐性偏差”,即优化设置中的细微变化(在收敛时不影响小训练损失)可能显著改变模型收敛的解,从而影响测试性能。本论文提供了一系列数学结果,系统地刻画了不同训练方式中的这种隐性偏差。 本论文的第一部分探讨了梯度下降,即使没有显式正则化,也可能收敛到最大化边界的解。先前的研究已经为同类神经网络的边界一阶最优性提供了理论依据,但由于其非凸性,边界的全局最优性并无保障。本论文在数据具有简单结构时提供了深入的理论分析:对于线性可分的数据,我们展示了关于是否可以达到边界全局最优性的正反结论。此外,我们展示了如何利用基于边界的视角来解释神经网络训练中的一些有趣的泛化现象,无论
………………………………