专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

可怕!llm训练的bug,梯度累计设置过大,会导致最终loss过大。

AINLP  · 公众号  ·  · 2024-10-19 21:36

文章预览

知乎:车中草同学(已授权) 链接:https://zhuanlan.zhihu.com/p/1485465898 范围:该问题影响所有使用梯度累计的库,包括hf的等。(hf的人在修复中了) 10.18日更新: 感谢评论区的大佬赐教,补充下他们的观点。 @Quokka 提供了一种对描述的实验现象(梯度累积越大,最终 loss 就越大的猜测)的解释: 短序列因为上下文短,信息不足,所以不容易预测,loss 偏大(梯度累积再给他加权),于是观测到的现象就是“梯度累积 loss 偏大”。其实它是偏向了短序列的 loss,而不是往大的方向偏。 @Ethan Yan 提到之前写过一篇文章: SFT loss 计算的那些坑(多轮合并/packing) https://zhuanlan.zhihu.com/p/721652210 解释了这种情况不只在梯度累积中发生,而且还发生在 SFT 阶段:1. 多轮对话合并 2. 不同样本的 Packing。(具体看他的文章) 一般情况下,loss 计算会经历三次平均: micr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览