专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

PPO & GRPO原理，小学生也能看懂！

AI算法与图像处理 · 公众号 · · 2025-03-24 21:05

文章预览

Datawhale分享作者：小天狼星不来客作者：小天狼星不来客，欢迎持续关注作者博客来源： https://zhuanlan.zhihu.com/p/22128744640 ，仅用于学术分享 01 开篇在强化学习（RL）中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为单纯追求高分可能带来种种副作用，比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。为了解决这些问题，人们在 RL 中设计了许多机制—— Critic （价值函数）、 Clip 操作、 Reference Model 、以及最近流行的 GRPO （Group Relative Policy Optimization）等。为了把这些概念讲得更生动，我们不妨打个比方：把 RL 模型的训练过程想象成小学里的考试场景。我们（被训练的模型）就像努力考高分的学生，发奖品的人则像 Critic 或者其他调控机制。接下来就让我们循序渐进地看看，为什么只靠最终成绩是不够 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博