专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

可怕！llm训练的bug，梯度累计设置过大，会导致最终loss过大。

深度学习自然语言处理 · 公众号 · · 2024-10-18 23:58

文章预览

知乎：车中草同学(已授权）链接：https://zhuanlan.zhihu.com/p/1485465898 范围：该问题影响所有使用梯度累计的库，包括hf的等。（hf的人在修复中了） 10.18日更新：感谢评论区的大佬赐教，补充下他们的观点。 @Quokka 提供了一种对描述的实验现象（梯度累积越大，最终 loss 就越大的猜测）的解释：短序列因为上下文短，信息不足，所以不容易预测，loss 偏大（梯度累积再给他加权），于是观测到的现象就是“梯度累积 loss 偏大”。其实它是偏向了短序列的 loss，而不是往大的方向偏。 @Ethan Yan 提到之前写过一篇文章： SFT loss 计算的那些坑（多轮合并/packing） https://zhuanlan.zhihu.com/p/721652210 解释了这种情况不只在梯度累积中发生，而且还发生在 SFT 阶段：1. 多轮对话合并 2. 不同样本的 Packing。（具体看他的文章）一般情况下，loss 计算会经历三次平均： micr ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据宝 · 批量创新高，热门概念股获两类资金共同抢筹！刚刚，多家公司公告机器人相关业务进展

昨天

券商中国 · 利好来了！爆买！

昨天

第一财经 · 超4100股上涨！

昨天

第一财经 · A股突变！午后跳水，超4600股下跌……

2 天前

21世纪经济报道 · 突发！一客机翻覆，至少17人受伤

2 天前

MEMS · 广东微纳院：半导体微纳加工中试平台正式通线

7 月前

医管新世界 · 重磅！卫健委：晋升副高需提交住院病案首页数据！

6 月前

槽值 · 37岁俞灏明官宣恋情，对象居然是她？

4 周前