专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
今天看啥  ›  专栏  ›  AI算法与图像处理

PPO & GRPO原理,小学生也能看懂!

AI算法与图像处理  · 公众号  ·  · 2025-03-24 21:05
    

文章预览

 Datawhale分享  作 者: 小天狼星不来客 作者:小天狼 星 不来 客,欢迎持续关注作者博客 来源: https://zhuanlan.zhihu.com/p/22128744640 ,仅用 于学术分享 01 开篇 在强化学习(RL)中,如果我们只知道“做对了能拿多少分”,那往往还不够,因为 单纯追求高分 可能带来种种副作用,比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。 为了解决这些问题,人们在 RL 中设计了许多机制—— Critic (价值函数)、 Clip  操作、 Reference Model 、以及最近流行的  GRPO (Group Relative Policy Optimization)等。 为了把这些概念讲得更生动,我们不妨打个比方: 把 RL 模型的训练过程想象成小学里的考试场景 。 我们(被训练的模型)就像努力考高分的学生,发奖品的人则像 Critic 或者其他调控机制。 接下来就让我们循序渐进地看看,为什么 只靠最终成绩 是不够 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览