专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌团队再次证明Scaling Law的准确性，即使总通信量减少99%，仍能超越数据并行训练

DeepTech深科技 · 公众号 · 科技媒体 · 2025-03-16 22:00

主要观点总结

本文介绍了Google旗下团队对DiLoCo方法的研究，该方法是一种针对大模型的分布式训练优化方法。研究发现，DiLoCo在模型性能、评估损失、最优超参数等方面表现出良好的扩展性，优于数据并行训练方法。DiLoCo通过减少通信开销和提高扩展性，能够实现更自然的水平扩展。此外，该研究还涉及模型训练的实验细节和DiLoCo的优势。

关键观点总结

关键观点1: DiLoCo是一种针对大模型的分布式训练优化方法，具备减少通信开销和提高扩展性等优点。

DiLoCo能够增加最佳 batch 大小、提高下游规模的泛化能力，并在固定 token 预算下改善评估损失。随着模型尺寸的增大，DiLoCo呈现出可预测的稳健扩展。

关键观点2: DiLoCo在模型训练方面的表现优于数据并行训练方法。

在相同条件下，DiLoCo的模型规模扩展性优于数据并行训练方法。即使在通信效率更高的DiLoCo上，Scaling Law预测会比数据并行训练方法产生更低的评估损失。

关键观点3: DiLoCo具有更自然的水平扩展性。

DiLoCo能够实现更快速的训练，通过降低通信成本和利用更大的batch来加速过度训练，需要的串行训练步骤更少。

文章预览

Scaling Law 由 OpenAI 团队于 2020 年正式提出，并在其论文《神经语言模型的扩展定律》（Scaling Laws for Neural Language Models）中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数据量和计算资源之间的数学关系。但在这两年，由于实际应用局限性、理论解释不完善等原因，Scaling Law 遭到了一些质疑。而 Google 旗下两支团队的最新研究，似乎又给 Scaling Law 投上了一张支持票。在大模型领域，数据并行训练（Data-Parallel）方法占据着核心地位，它是训练大模型的基础技术之一。然而，随着模型规模的不断增大，数据并行训练方法的通信开销和内存限制等缺点日益凸显。为此，Google DeepMind 此前研发出一种名为 DiLoCo（分布式低通信优化，Distributed Low-Communication Optimization）的方法，其具备减少通信开销和提高扩展性等优势。近日，来自 Google Research 和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博