DeepSeek-R1的强化学习算法：群组相对策略优化（GRPO）

架构师带你玩转AI · 公众号 · · 2025-02-17 22:18

文章预览

强化学习（RL）已被证明在监督微调（SFT）阶段后，能进一步提高大型语言模型（LLMs）的数学推理能力。 DeepSeek-R1 引入了组相对策略优化（GRPO），这是一种高效且有效的强化学习算法。 GRPO摒弃了评判模型，而是通过组分数来估计基线，与近端策略优化（PPO）相比，显著减少了训练资源。一、强化学习（RL）强化学习（Reinforcement Learning，RL）是什么？强化学习是一种独特的机器学习方法，它侧重于智能体如何在复杂环境中通过与环境的持续交互来学习并优化其行为策略，从而最大化长期累积奖励。强化学习模仿了人类和动物从经验中学习以实现目标的学习方式。在学习过程中，利用奖励和惩罚信号来引导智能体选择有利的行为。 Q-learning ：一种无模型、非策略性的算法，通过迭代更新其基于观察到的过渡和奖励的估计值来学习最佳的Q-函 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博