专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

科学家揭示深度神经网络的线性性质，助力催生更优的模型融合算法

DeepTech深科技 · 公众号 · 科技媒体 · 2024-07-15 19:13

主要观点总结

本文主要介绍了深度学习中关于损失函数和优化过程的理论研究，特别是Mode Connectivity和Linear Mode Connectivity现象。文章还介绍了上海交大周展鹏博士及其团队对于Linear Mode Connectivity和Layerwise Linear Feature Connectivity的研究，包括它们的应用和理论支撑。最后，文章提到了该团队的后续研究方向，即希望从Training Dynamics的角度理解这些现象。

关键观点总结

关键观点1: 深度学习中的损失函数和优化过程的理论研究。

近年来，深度学习虽然取得了巨大成功，但对其理论的理解仍然滞后。损失函数被视为高维复杂黑盒函数，但其中包含复杂的良性结构，能有效促进基于梯度的优化过程。

关键观点2: Mode Connectivity和Linear Mode Connectivity现象。

Mode Connectivity指的是通过两次独立梯度优化得到的最优点可以通过简单路径相连，路径上的损失或准确率几乎保持恒定。Linear Mode Connectivity则表明不同的最优点可以通过线性路径相连。

关键观点3: 周展鹏博士及其团队的研究

周展鹏博士和他的团队深入研究了Linear Mode Connectivity和Layerwise Linear Feature Connectivity，从特征学习的角度解释了这一现象。他们发现Layerwise Linear Feature Connectivity在预训练-微调的范式下也成立，并据此解释了两种模型融合的技术。

关键观点4: 研究的意义和后续方向

该团队的研究为大模型融合提供了实验和理论支撑，能够启发更好的大模型融合算法。未来，他们希望从Training Dynamics的角度理解Linear Mode Connectivity等现象，这将是该团队的后续努力方向。

文章预览

近年来，尽管深度学习取得了巨大成功，但是人们对其理论的理解仍然滞后。正因此，尝试从理论角度解释深度学习的损失函数和优化过程的研究课题，受到了较多关注。虽然在深度学习中使用的损失函数，通常被视为高维复杂黑盒函数，但是人们相信这些函数特别是在实际训练轨迹中遇到的部分，包含着复杂的良性结构，能够有效促进基于梯度的优化过程。就像许多其他科学学科一样，构建深度学习理论的关键一步，在于理解从实验中发现的不平凡现象，从而阐明其潜在的机制。最近，领域内学者发现了一个引人注目的现象——Mode Connectivity。即通过两次独立梯度优化得到的不同最优点，在参数空间中可以通过简单的路径相连，而路径上的损失或准确率几乎保持恒定。这一现象毫无疑问是令人惊讶的，因为非凸函数的不同最优点，很可能位 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博