从理论到代码剖析DeepSeek-R1：从PPO到Reinforce++，再对比GRPO

机器学习算法与自然语言处理 · 公众号 · · 2025-02-15 00:00

主要观点总结

本文主要介绍了MLNLP社区以及关于强化学习中的PPO算法的变体Reinforce++和GRPO的讨论。文章涵盖了Reinforce++和GRPO的算法特点、与PPO的对比、关键改进以及关于KL惩罚的处理等。同时，文章还涉及对GRPO中KL估计的改进意见。

关键观点总结

关键观点1: MLNLP社区介绍及作用

MLNLP社区是国内外知名的机器学习与自然语言处理社区，旨在促进学术界、产业界和广大爱好者之间的交流和进步。

关键观点2: Reinforce++和GRPO算法概述

Reinforce++和GRPO都是PPO的变体，针对PPO的critic模型难以训练的问题进行了改进，主要通过估计价值的方法进行调整。

关键观点3: Reinforce++的特点

Reinforce++采用累积折扣奖励来估计价值，偏差小但方差大，同时保留了PPO的一些重要技巧，如重要性采样、clip、归一化等。

关键观点4: GRPO的关键改进

GRPO通过在同一prompt下输出多条答案，计算r(x,y)的均值和方差进行归一化，并对KL惩罚进行了特殊处理，将其从奖励估计中移除。

关键观点5: 对GRPO中KL估计的改进意见

作者提出了将KL拿回G_t，仍沿用group reward，再用上clip的k3估计的改进意见，并称之为GRPO++。

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 深度学习自然语言处理作者｜lym Reinforce++ 和 GRPO 都是 PPO 的变体。PPO 有 4 个模型，actor，critic，reference，reward。其中 actor 和 critic 都是需要训练并更新参数的模型，而且二者大小差不多，非常占显存，很难 scaling（比如 deepseek v3 600B，训练一个 600B 就已经巨难了，同时训练两个 600B，会不会疯！）。所以以往好多都是用 DPO，它只需要一个 actor，一个 reference，但是它效果不如 PPO。有人提出 DPO 的升级版本，让模型自己一个 prompt 输出 n 条，用 reward model 取最好的和最差的两条去训练，迭代几次（iterative ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博