李飞飞/DeepSeek前员工领衔，复现R1强化学习框架，训练Agent在行动中深度思考

量子位 · 公众号 · AI · 2025-04-25 12:07

主要观点总结

文章介绍了新强化学习框架RAGEN，该框架由DeepSeek前员工和斯坦福李飞飞团队提出，旨在解决多轮强化学习训练Agent时出现的问题。文章详细阐述了RAGEN的主要特点和解决强化学习训练中的三大难点，包括Echo Trap、数据质量和缺乏推理动机。同时介绍了RAGEN的系统架构，包括MDP Formulation和StarPO框架。文章还提到了该团队的另外两个项目VAGEN和论文中的六个主要发现。最后，文章提供了论文和代码的链接。

关键观点总结

关键观点1: 新强化学习框架RAGEN的提出背景和特点

由DeepSeek前员工和斯坦福李飞飞团队提出，旨在解决多轮强化学习训练Agent时的问题，如Echo Trap、数据质量和缺乏推理动机等。

关键观点2: RAGEN的系统架构

包括MDP Formulation和StarPO框架，通过多轮强化学习来优化轨迹级别的交互过程。

关键观点3: RAGEN与其他强化学习方法的区别

传统的单轮强化学习方法在Agent任务中有效但经常崩溃，而RAGEN通过解决三大难题实现了更好的稳定性。

关键观点4: RAGEN的六个主要发现

包括多轮训练的不稳定模式、回声陷阱、崩溃的动态预测等。

关键观点5: 团队的另外两个项目VAGEN的介绍

VAGEN引入了回合感知推理交互链优化算法，通过选择性token屏蔽和跨轮credit分配等技术扩展了传统的RICO方法。

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 什么开源算法自称为DeepSeek-R1（-Zero）框架的第一个复现？新强化学习框架 RAGEN ，作者包括DeepSeek前员工 Zihan Wang 、斯坦福李飞飞团队等，可训练Agent在行动中深度思考。论文一作Zihan Wang在DeepSeek期间参与了Deepseek-v2和Expert Specialized Fine-Tuning等工作，目前在美国西北大学读博。他在介绍这项工作时上来就是一个灵魂提问：为什么你的强化学习训练总是崩溃？而RAGEN正是探讨了使用多轮强化学习训练Agent时会出现哪些问题，以及如何解决这些问题。通过大量实验，研究团队发现了训练深度推理型Agent的三大难点: Echo Trap（回声陷阱）：多轮强化学习中，模型过度依赖局部收益的推理，导致行为单一化、探索能力衰退，从而影响长期收益。数据质量： Agent生成的交互数据直接影响强化学习的效果。合理的数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博