文章预览
知乎:车中草同学(已授权) 链接:https://zhuanlan.zhihu.com/p/1485465898 范围:该问题影响所有使用梯度累计的库,包括hf的等。(hf的人在修复中了) 10.18日更新: 感谢评论区的大佬赐教,补充下他们的观点。 @Quokka 提供了一种对描述的实验现象(梯度累积越大,最终 loss 就越大的猜测)的解释: 短序列因为上下文短,信息不足,所以不容易预测,loss 偏大(梯度累积再给他加权),于是观测到的现象就是“梯度累积 loss 偏大”。其实它是偏向了短序列的 loss,而不是往大的方向偏。 @Ethan Yan 提到之前写过一篇文章: SFT loss 计算的那些坑(多轮合并/packing) https://zhuanlan.zhihu.com/p/721652210 解释了这种情况不只在梯度累积中发生,而且还发生在 SFT 阶段:1. 多轮对话合并 2. 不同样本的 Packing。(具体看他的文章) 一般情况下,loss 计算会经历三次平均: micr
………………………………