【斯坦福大学博士论文】神经网络的凸优化公式化：理论、应用与未来展望

专知 · 公众号 · · 2025-03-23 11:40

文章预览

深度神经网络，尤其是大语言模型（LLMs），在广泛的任务中展现了显著的成功；然而，其训练过程计算密集，需要大量的数据和计算资源。即使是对预训练的LLMs进行特定任务的微调，也常常带来显著的计算成本。本论文从凸优化的视角出发，推进了对神经网络的理论理解和实际优化。我们首先提出了一个基础性结果：两层ReLU网络的正则化训练问题可以重新表述为凸优化问题。这种凸优化公式化阐明了优化景观，刻画了所有全局最优解和Clarke稳定点，并将模型性能与超参数选择解耦。借鉴压缩感知中最稀疏线性模型的恢复，我们证明了过参数化神经网络本质上学习能够有效解释数据的简单模型，并通过在随机生成数据集中观察到的相变现象支持了这一结论，从而确立了其卓越的泛化能力。将强对偶性概念扩展到深层网络，我们提出了一种并行架构 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

CHINADAILY · 如何用英语写好中国美景？

9 小时前

CHINADAILY · Top News丨China remains attractive for US investors

2 天前

WallStreetTequila · 中国香港投行面试why our bank最完美的回答

6 月前

兴业研究宏观 · 外汇商品 | 关注美国能源、住房通胀回升风险——美国9月CPI数据点评

5 月前

游民星空 · 这个把“性别”划分到极致的系列作，十年后能再拿下年度游戏吗？

5 月前

欧洲并购与投资 · 大众汽车德国近103,000名员工参加了警告罢工

3 月前