专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具

机器之心  · 公众号  · AI  · 2025-03-13 09:00
    

主要观点总结

阶跃星辰研究团队通过大规模实证探索,揭示了大型语言模型预训练中的超参数优化的全新的普适性缩放规律,并推出了通用的最优超参数估算工具。研究涵盖了模型形状、稀疏度、数据分布等方面的影响,展现了Step Law的鲁棒性和泛化能力。研究细节和开源地址已公布。

关键观点总结

关键观点1: 研究团队发现超参数优化的缩放规律,推出Step Law,为LLM性能提升提供实用工具。

阶跃星辰团队通过实证探索揭示了大型语言模型预训练中的超参数优化规律。他们发现存在一种普适的缩放法则(Step Law),能够预测最优学习率和批量大小的变化规律。这一发现为提升LLM性能提供了实用的工具。

关键观点2: 研究涵盖了不同模型形状、稀疏度和数据分布的影响。

研究不仅适用于特定的模型结构,还探讨了不同模型形状(如宽度与深度的组合)、模型稀疏度以及数据分布对超参数优化的影响。实验结果表明,Step Law在更广泛的架构设计空间中依然适用,为复杂模型架构的设计和优化提供了指导意义。

关键观点3: 研究团队进行了广泛实验验证,包括模型训练、验证和最优超参的Scaling Law拟合。

为了验证Step Law的有效性和鲁棒性,研究团队进行了大量的实验,包括模型训练、验证以及最优超参数的Scaling Law拟合。他们通过对比分析发现,学习率调度策略对最优超参选择产生显著影响。此外,他们还分析了训练损失与验证损失的最优超参一致性,发现平滑训练损失曲线可以为实际超参数选择提供可靠指导。


文章预览

机器之心发布 机器之心编辑部 近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM 超参数优化的全新的普适性缩放规律,为更好地提升 LLM 性能,提供了开箱即用的工具。该研究也是第一个全面研究模型最优超参随着 Model Shape、Dense/MoE、预训练数据分布的变化,是否稳定不变的工作。研究中凸显出 Step Law 的鲁棒性,大大增加了该工具的实用性和普适性。同时该团队正在逐步开源相关资料,包括模型、训练日志等,期待更多相关领域的人基于海量的实验结果作出更加深入的研究与解释。 论文标题:Predictable Scale: Part Ⅰ — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining 论文链接:https://arxiv.org/abs/2503.04715 工具链接:https://step-law.gith ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览