注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【深度思考第十七篇:普通人学AI,关键不在于 ...
·
2 天前
爱可可-爱生活
·
《爱可可微博热门分享(12.14)》 ...
·
2 天前
爱可可-爱生活
·
本文提出了LATENTQA任务和LIT方法, ...
·
3 天前
爱可可-爱生活
·
大型语言模型的中间层通常比最终层提供更好的下 ...
·
3 天前
黄建同学
·
AI ...
·
4 天前
今天看啥
›
专栏
›
量子位
1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品
量子位
·
公众号
·
AI
· 2024-11-27 13:00
文章预览
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 只要改一行代码 ,就能让大模型训练效率提升至1.47倍。 拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。 在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。 该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。 作者在600M到1B不同参数规模的Llama模型上进行了试验,获得了最高47%的加速率。 该研究相关代码已经开源,在GitHub上有使用方法的详细讲解。 一行代码改进大模型训练 Cautious Optimizers在PyTorch当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而 避免参数更新的方向与当前梯度方向相悖 。 因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。 不过作者并未在方向 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【深度思考第十七篇:普通人学AI,关键不在于掌握多少技术知识,而-20241215074127
2 天前
爱可可-爱生活
·
《爱可可微博热门分享(12.14)》 爱可可微博热门分享(12-20241214230412
2 天前
爱可可-爱生活
·
本文提出了LATENTQA任务和LIT方法,利用自然语言来解释和-20241214060414
3 天前
爱可可-爱生活
·
大型语言模型的中间层通常比最终层提供更好的下游任务表示,这通过多-20241214061029
3 天前
黄建同学
·
AI 辅助编程的模型搭配↓-20241213002615
4 天前
新智元
·
大规模、动态「语音增强/分离」新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据
1 月前
固收彬法
·
CD利率下行,发行成功率上升——同业存单周度跟踪(2024-11-03)
1 月前