文章预览
前置说明: 我只是 RLHF 一个刚入门的小菜鸡,完全可能错误百出,欢迎大家批评指教! Reinforce++ 和 GRPO 都是 PPO 的变体。PPO 有 4 个模型, actor, critic,reference, reward。 其中 actor 和 critic 都是需要训练并更新参数的模型,而且二者大小差不多,非常占显存,很难 scaling(比如 deepseek v3 600B,训练一个 600B 就已经巨难了,同时训练两个 600B,会不会疯!)。 所以以往好多都是用 DPO,它只需要一个 actor,一个 reference,但是它效果不如 PPO。 有人提出 DPO 的升级版本,让模型自己一个 prompt 输出 n 条,用 reward model 取最好的和最差的两条去训练,迭代几次(iterative 和 reject sampling)。但 DPO 还是不如 PPO,这点大家已经是公认的了。 针对这种问题,业界的共识是去掉 PPO 的 critic 模型,这样就只有一个 actor 是训练模型,ref 和 reward 是推理模型。 推理模型就
………………………………