文章预览
深度神经网络,尤其是大语言模型(LLMs),在广泛的任务中展现了显著的成功;然而,其训练过程计算密集,需要大量的数据和计算资源。即使是对预训练的LLMs进行特定任务的微调,也常常带来显著的计算成本。本论文从凸优化的视角出发,推进了对神经网络的理论理解和实际优化。 我们首先提出了一个基础性结果:两层ReLU网络的正则化训练问题可以重新表述为凸优化问题。这种凸优化公式化阐明了优化景观,刻画了所有全局最优解和Clarke稳定点,并将模型性能与超参数选择解耦。借鉴压缩感知中最稀疏线性模型的恢复,我们证明了过参数化神经网络本质上学习能够有效解释数据的简单模型,并通过在随机生成数据集中观察到的相变现象支持了这一结论,从而确立了其卓越的泛化能力。将强对偶性概念扩展到深层网络,我们提出了一种并行架构
………………………………