主要观点总结
本文主要介绍了MLNLP社区以及关于强化学习中的PPO算法的变体Reinforce++和GRPO的讨论。文章涵盖了Reinforce++和GRPO的算法特点、与PPO的对比、关键改进以及关于KL惩罚的处理等。同时,文章还涉及对GRPO中KL估计的改进意见。
关键观点总结
关键观点1: MLNLP社区介绍及作用
MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和广大爱好者之间的交流和进步。
关键观点2: Reinforce++和GRPO算法概述
Reinforce++和GRPO都是PPO的变体,针对PPO的critic模型难以训练的问题进行了改进,主要通过估计价值的方法进行调整。
关键观点3: Reinforce++的特点
Reinforce++采用累积折扣奖励来估计价值,偏差小但方差大,同时保留了PPO的一些重要技巧,如重要性采样、clip、归一化等。
关键观点4: GRPO的关键改进
GRPO通过在同一prompt下输出多条答案,计算r(x,y)的均值和方差进行归一化,并对KL惩罚进行了特殊处理,将其从奖励估计中移除。
关键观点5: 对GRPO中KL估计的改进意见
作者提出了将KL拿回G_t,仍沿用group reward,再用上clip的k3估计的改进意见,并称之为GRPO++。
文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 深度学习自然语言处理 作者|lym Reinforce++ 和 GRPO 都是 PPO 的变体。PPO 有 4 个模型,actor,critic,reference,reward。 其中 actor 和 critic 都是需要训练并更新参数的模型,而且二者大小差不多,非常占显存,很难 scaling(比如 deepseek v3 600B,训练一个 600B 就已经巨难了,同时训练两个 600B,会不会疯!)。 所以以往好多都是用 DPO,它只需要一个 actor,一个 reference,但是它效果不如 PPO。 有人提出 DPO 的升级版本,让模型自己一个 prompt 输出 n 条,用 reward model 取最好的和最差的两条去训练,迭代几次(iterative
………………………………