1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

量子位 · 公众号 · AI · 2024-11-27 13:00

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI 只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。该优化器以哈密顿量和下降动力学为理论基础，在加速的同时不影响收敛特性。作者在600M到1B不同参数规模的Llama模型上进行了试验，获得了最高47%的加速率。该研究相关代码已经开源，在GitHub上有使用方法的详细讲解。一行代码改进大模型训练 Cautious Optimizers在PyTorch当中增加的一行代码，核心思路是引入实现一种掩蔽机制，从而避免参数更新的方向与当前梯度方向相悖。因为这两个方向一旦不一致，就有可能导致损失函数暂时增加，造成收敛速度的减缓。不过作者并未在方向 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【深度思考第十七篇：普通人学AI，关键不在于掌握多少技术知识，而-20241215074127

2 天前

爱可可-爱生活 · 《爱可可微博热门分享(12.14)》爱可可微博热门分享(12-20241214230412

2 天前

爱可可-爱生活 · 本文提出了LATENTQA任务和LIT方法，利用自然语言来解释和-20241214060414

3 天前

爱可可-爱生活 · 大型语言模型的中间层通常比最终层提供更好的下游任务表示，这通过多-20241214061029

3 天前

黄建同学 · AI 辅助编程的模型搭配↓-20241213002615

4 天前

新智元 · 大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

1 月前

固收彬法 · CD利率下行，发行成功率上升——同业存单周度跟踪（2024-11-03）

1 月前