专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【牛津大学博士论文】深度学习算法的渐近分析,186页pdf

专知  · 公众号  ·  · 2024-06-28 14:00
    

文章预览

我们研究了深度残差网络在层数增加时的渐近性质 。首先,我们展示了训练权重的缩放机制,这与神经ODE文献中隐含假设的缩放机制显著不同。我们研究了在这些缩放机制下隐藏状态动态的收敛性,表明可以得到常微分方程(ODE)、随机微分方程(SDE)或两者皆不是。此外,我们推导了相应的反向传播动态的缩放极限。最后,我们证明了在使用平滑激活函数的情况下,缩放机制是使用梯度下降法的结果。特别是,我们证明了梯度下降法在训练深度残差网络时线性收敛到全局最小值。我们还表明,如果训练权重作为层索引的函数,随着深度的增加承认一个缩放极限,那么该极限具有有限的p-变差,其中p=2。 本工作还研究了路径同质神经架构的平均场极限 。我们证明了Wasserstein梯度流的收敛性,并推导出基于优化算法稳定性的泛化界,用于具有ReLU激 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览