一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

可怕!llm训练的bug,梯度累计设置过大,会导致最终loss过大。

深度学习自然语言处理  · 公众号  ·  · 2024-10-18 23:58

文章预览

知乎:车中草同学(已授权) 链接:https://zhuanlan.zhihu.com/p/1485465898 范围:该问题影响所有使用梯度累计的库,包括hf的等。(hf的人在修复中了) 10.18日更新: 感谢评论区的大佬赐教,补充下他们的观点。 @Quokka 提供了一种对描述的实验现象(梯度累积越大,最终 loss 就越大的猜测)的解释: 短序列因为上下文短,信息不足,所以不容易预测,loss 偏大(梯度累积再给他加权),于是观测到的现象就是“梯度累积 loss 偏大”。其实它是偏向了短序列的 loss,而不是往大的方向偏。 @Ethan Yan 提到之前写过一篇文章: SFT loss 计算的那些坑(多轮合并/packing) https://zhuanlan.zhihu.com/p/721652210 解释了这种情况不只在梯度累积中发生,而且还发生在 SFT 阶段:1. 多轮对话合并 2. 不同样本的 Packing。(具体看他的文章) 一般情况下,loss 计算会经历三次平均: micr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览