主要观点总结
本文介绍了近期在DeepSeek最新开源的推理大模型Deep Seek-R1中使用的强化学习(RL)GRPO(Group Relative Policy Optimization)算法。清华大学智能驾驶课题组将从算法原理与实际应用两个维度进行深度解读。文章首先回顾了主流RL算法,包括GRPO的前身PPO算法和当下在具身智能领域中表现最好的DSAC-T算法。然后详细介绍了GRPO算法的原理及其在DeepSeek-R1中的应用。最后指出了DeepSeek-R1通过结合多种技术改进,解决了GRPO存在的一些问题,展望了GRPO算法在未来大模型领域的发展。
关键观点总结
关键观点1: 主流RL算法回顾
为了更好地理解GRPO带来的改进,先简单回顾了此前的主流RL算法,包括GRPO的前身PPO算法和DSAC-T算法。这些算法在设计之初是面向相对较小的模型,并用于自动驾驶、机器人、游戏等任务。通过价值函数模型为策略改进提供依据。
关键观点2: GRPO算法原理
GRPO可以视作PPO算法在大语言模型领域的改进版本。GRPO的优势函数计算不需要使用价值模型,而是用当前策略对同一问题多次生成回答,并以这些回答的平均奖励估计基线,计算相对奖励和优势。这减少了训练资源消耗,并避免了价值估计不准的问题。
关键观点3: GRPO算法在DeepSeek-R1中的应用
DeepSeek-R1使用GRPO算法提升了模型的推理能力。通过冷启动、语言一致性奖励、拒绝采样和监督微调等技术改进,解决了GRPO算法存在的一些问题,如推理内容可读性欠佳、训练初期表现不稳定等。
文章预览
近期在DeepS eek最 新开源的推理大模型Deep See k-R1中 ,强 化学习(RL) GRPO(Group Relative Policy Optimization,组相对策略优化) 算法是其关键技术之一。清华大学智能驾驶课题组(iDLab)将从算法原理与实际应用两个维度,对其进行深度解读。GRPO以及DeepSeek-R1的论文如下,感兴趣的读者可以先行阅读: GR PO论文:http s://arxiv.org/abs/2402.03300 DeepSeek-R1论文:https://arxiv.org/abs/2501.12948 1. 主流RL算法回顾 为更好理解GRPO带来的改进,我们先简单回顾一下此前的主流RL算法,包括GRPO的前身PPO(Proximal Policy Optimization )算法,以及当下在具身智能领域中表现最好的DSAC-T(Distributional Soft A ctor-Critic with Three Refinements)。这些算法在设计之初是面向相对较小的模型(例如1B以下的模型),并用于自动驾驶、机器人、游戏等任务,采用Actor-Critic架构,通过价值函数模型为策
………………………………