一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

从理论到代码剖析DeepSeek-R1:从PPO到Reinforce++,再对比GRPO

机器学习算法与自然语言处理  · 公众号  ·  · 2025-02-15 00:00
    

主要观点总结

本文主要介绍了MLNLP社区以及关于强化学习中的PPO算法的变体Reinforce++和GRPO的讨论。文章涵盖了Reinforce++和GRPO的算法特点、与PPO的对比、关键改进以及关于KL惩罚的处理等。同时,文章还涉及对GRPO中KL估计的改进意见。

关键观点总结

关键观点1: MLNLP社区介绍及作用

MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和广大爱好者之间的交流和进步。

关键观点2: Reinforce++和GRPO算法概述

Reinforce++和GRPO都是PPO的变体,针对PPO的critic模型难以训练的问题进行了改进,主要通过估计价值的方法进行调整。

关键观点3: Reinforce++的特点

Reinforce++采用累积折扣奖励来估计价值,偏差小但方差大,同时保留了PPO的一些重要技巧,如重要性采样、clip、归一化等。

关键观点4: GRPO的关键改进

GRPO通过在同一prompt下输出多条答案,计算r(x,y)的均值和方差进行归一化,并对KL惩罚进行了特殊处理,将其从奖励估计中移除。

关键观点5: 对GRPO中KL估计的改进意见

作者提出了将KL拿回G_t,仍沿用group reward,再用上clip的k3估计的改进意见,并称之为GRPO++。


文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 深度学习自然语言处理 作者|lym Reinforce++ 和 GRPO 都是 PPO 的变体。PPO 有 4 个模型,actor,critic,reference,reward。 其中 actor 和 critic 都是需要训练并更新参数的模型,而且二者大小差不多,非常占显存,很难 scaling(比如 deepseek v3 600B,训练一个 600B 就已经巨难了,同时训练两个 600B,会不会疯!)。 所以以往好多都是用 DPO,它只需要一个 actor,一个 reference,但是它效果不如 PPO。 有人提出 DPO 的升级版本,让模型自己一个 prompt 输出 n 条,用 reward model 取最好的和最差的两条去训练,迭代几次(iterative ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览