专栏名称: 运筹OR帷幄
致力于成为全球最大的运筹学中文线上社区
目录
相关文章推荐
今天看啥  ›  专栏  ›  运筹OR帷幄

优化|大规模神经网络调参及优化规律

运筹OR帷幄  · 公众号  ·  · 2024-07-23 20:00

文章预览

©作者 |  郑奘巍 单位 |  新加坡国立大学 研究方向 |  高效机器学习与神经网络优化 从理论分析入手把握大规模神经网络优化的规律,可以指导实践中的超参数选择。 反过来,实践中的超参数选择也可以指导理论分析。本篇文章聚焦于大语言模型,介绍从 GPT 以来大家普遍使用的训练超参数的变化。 规模律研究的是随着神经网络规模的增大,超参数、性能是如何改变的。 规模律是对模型、数据、优化器关系的深刻刻画,揭示大模型优化时的普遍规律 。通过规模律,我们可以用少量成本在小模型上验证超参数的选择和性能的变化情况,继而外推到大模型上。 在 LLM 中规模性常常变换模型大小和数据规模,进行大量调参而保持优化器不变。故对于大模型优化器而言,规模性是其性能很好的展现(性能上限)。设计更好的优化器(用更少的数据达到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览