专栏名称: 自动驾驶之星
自动驾驶之星,是一个以自动驾驶量产交流为主的社区。这里有自动驾驶量产第一线的前沿动态,有一群奋斗在自动驾驶量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
今天看啥  ›  专栏  ›  自动驾驶之星

大模型SFT暗藏大陷阱?梯度累计bug造成大范围影响

自动驾驶之星  · 公众号  ·  · 2024-10-19 09:27

文章预览

点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 在LLM的训练时,由于显存不足以支撑起大batch训练,通常大家都会采用一种策略: 梯度累计(gradient accumulate)。 这种方法允许模型在多个batch的梯度回传累计并求均值之后,再更新一次权重。 这样做相当于模拟了一个更大的批量大小,而实际上并没有一次性处理那么多数据。 这样做的好处是,它可以减少内存的使用,因为不需要一次性加载所有数据到GPU上,同时也可以享受等价大batch带来的训练的稳定性和模型的泛化能力。 但是近期大家发现了一个bug:对于几乎所有使用了梯度累积策略的库,包括Huggingface的一系列库,都暗藏了一个bug,这个bug尤其在LLM的后训练阶段影响显著: 使用梯度累计并不一定等价于大batch训练,会有非常明显的精度损失! h ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览