【牛津大学博士论文】深度学习算法的渐近分析

数据派THU · 公众号 · 大数据 · 2024-07-02 17:00

来源：专知本文约1000字，建议阅读5分钟本论文旨在通过研究系统在某个参数趋近极限时的行为，即渐近分析，探索深度学习的各种重要理论方面。我们研究了深度残差网络在层数增加时的渐近性质。首先，我们展示了训练权重的缩放机制，这与神经ODE文献中隐含假设的缩放机制显著不同。我们研究了在这些缩放机制下隐藏状态动态的收敛性，表明可以得到常微分方程（ODE）、随机微分方程（SDE）或两者皆不是。此外，我们推导了相应的反向传播动态的缩放极限。最后，我们证明了在使用平滑激活函数的情况下，缩放机制是使用梯度下降法的结果。特别是，我们证明了梯度下降法在训练深度残差网络时线性收敛到全局最小值。我们还表明，如果训练权重作为层索引的函数，随着深度的增加承认一个缩放极限，那么该极限具有有限的p-变差，其中p=2。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博