专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

量子位  · 公众号  · AI  · 2024-11-27 13:00
    

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 只要改一行代码 ,就能让大模型训练效率提升至1.47倍。 拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。 在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。 该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。 作者在600M到1B不同参数规模的Llama模型上进行了试验,获得了最高47%的加速率。 该研究相关代码已经开源,在GitHub上有使用方法的详细讲解。 一行代码改进大模型训练 Cautious Optimizers在PyTorch当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而 避免参数更新的方向与当前梯度方向相悖 。 因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。 不过作者并未在方向 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览