一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
今天看啥  ›  专栏  ›  深度学习基础与进阶

PPO & GRPO原理,小学生也能看懂!

深度学习基础与进阶  · 公众号  ·  · 2025-04-02 11:38
    

文章预览

来源 | 知乎 作者 |  小天狼星不来客 开篇 在强化学习(RL)中,如果我们只知道“做对了能拿多少分”,那往往还不够,因为 单纯追求高分 可能带来种种副作用,比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。 为了解决这些问题,人们在 RL 中设计了许多机制—— Critic(价值函数)、 Clip 操作、Reference Model、以及最近流行的 GRPO(Group Relative Policy Optimization)等。 为了把这些概念讲得更生动,我们不妨打个比方: 把 RL 模型的训练过程想象成小学里的考试场景 。 我们(被训练的模型)就像努力考高分的学生,发奖品的人则像 Critic 或者其他调控机制。 接下来就让我们循序渐进地看看,为什么 只靠最终成绩 是不够的,为什么需要一步步引入 Critic、Clip、Reference Model,最后又是如何引出 GRPO 的思路。 只有 Reward 时的朴素做法:为什么 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览