文章预览
Stochastic Gradient Descent and Anomaly of Variance-flatness Relation in Artificial Neural Networks 人工神经网络中的随机梯度下降和方差-平坦关系的异常 https://arxiv.org/pdf/2207.04932.pdf Abstract 随机梯度下降(SGD)是深度学习神经网络中广泛使用的算法,其成功背后的理论原理一直受到持续研究。最近的一项工作报告了在SGD驱动下神经权重方差与损失函数的平坦性之间存在的异常(反向)关系[Feng & Tu, PNAS 118, 0027 (2021)]。为了调查这一看似违反统计物理学原理的现象,通过动态分解方法分析了SGD在固定点附近的性质。我们的方法恢复了真实的“能量”函数,其中普遍的Boltzmann分布成立。这与一般的成本函数不同,并解决了该异常引发的悖论。这项研究填补了经典统计力学与新兴的人工智能学科之间的鸿沟,有望为后者提供更好的算法。 I. INTRODUCTION 人工神经网络(ANN)是
………………………………