一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

从理论到代码剖析DeepSeek-R1:从PPO到Reinforce++,再对比GRPO

深度学习自然语言处理  · 公众号  ·  · 2025-02-12 22:39
    

文章预览

前置说明: 我只是 RLHF 一个刚入门的小菜鸡,完全可能错误百出,欢迎大家批评指教! Reinforce++ 和 GRPO 都是 PPO 的变体。PPO 有 4 个模型, actor, critic,reference, reward。 其中 actor 和 critic 都是需要训练并更新参数的模型,而且二者大小差不多,非常占显存,很难 scaling(比如 deepseek v3 600B,训练一个 600B 就已经巨难了,同时训练两个 600B,会不会疯!)。 所以以往好多都是用  DPO,它只需要一个 actor,一个 reference,但是它效果不如 PPO。 有人提出 DPO 的升级版本,让模型自己一个 prompt 输出 n 条,用 reward model 取最好的和最差的两条去训练,迭代几次(iterative 和 reject sampling)。但 DPO 还是不如 PPO,这点大家已经是公认的了。 针对这种问题,业界的共识是去掉 PPO 的 critic 模型,这样就只有一个 actor 是训练模型,ref 和 reward 是推理模型。 推理模型就 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览