不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

量子位 · 公众号 · AI · 2025-02-16 11:59

主要观点总结

文章介绍了上海AI Lab团队通过强化学习在数学推理任务上的突破。他们提出了一种新的基于结果奖励的强化学习算法，无需依赖大规模模型进行蒸馏，仅通过强化学习即可达到惊人的效果。该团队解决了稀疏奖励困境、局部正确陷阱和规模依赖魔咒等难题，并成功开源了相关数据和模型以促进研究比较和进一步研究。

关键观点总结

关键观点1: 上海AI Lab团队通过强化学习在数学推理任务上取得了突破。

团队通过重新审视当前基于结果奖励的强化学习算法，设计了一个新算法，该算法能够在不依赖超大规模模型进行蒸馏的情况下达到惊人的效果。

关键观点2: 团队解决了强化学习中面临的稀疏奖励困境、局部正确陷阱和规模依赖魔咒等难题。

为了解决这些问题，团队提出了新的策略优化框架，包括正负样本奖励重塑和结果奖励「因果溯源」等方法。

关键观点3: 团队将RL训练的数据、起点和最终模型开源，促进了社区的公平比较和进一步研究。

此外，为了比较不同基座模型下的性能表现，研究还发现了起点模型和训练数据的准备对最终结果的重要性。

文章预览

书理投稿自凹非寺量子位 | 公众号 QbitAI 仅通过强化学习，就能超越DeepSeek！上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如DeepSeek-R1的情况下，就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。团队发现，当前大模型数学推理任务面临”三重门”困局：稀疏奖励困境：最终答案对错的二元反馈，使复杂推理的优化变得困难局部正确陷阱：长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒：传统蒸馏方法迫使研究者陷入”参数规模军备竞赛” 因此，研究团队重新审视了当前基于结果奖励的强化学习算法，经过严格的理论推导与证明，重新设计了一个新的结果奖励强化学习算法，并在这个过程中得出了三点重要结论：对于正 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

先进能源科技战略情报研究中心 · 美国能源部投入3500万美元支持利用AI促进催化剂开发

21 小时前

先进能源科技战略情报研究中心 · 美国能源部投入3500万美元支持利用AI促进催化剂开发

21 小时前

新智元 · DeepSeek第五天开源猛料，3FS并行文件系统榨干SSD！6.6 TiB/s吞吐量堪比光速

昨天

爱可可-爱生活 · 本文反直觉地揭示了过度扩展思维链长度会损害 LLM 推理性能，并-20250227055000

2 天前

爱可可-爱生活 · 【[87星]BreezyVoice：为台湾闽南语量身定制的语音克-20250226185937

2 天前

爱可可-爱生活 · 【[89星]SlamKit：专门为了提高语音语言模型训练效率而设-20250226124411

3 天前

科研云 · 湖南工大经鑫课题组Small: 缠结域策略构筑低滞后导电水凝胶

8 月前

昆明信息港 · 十级疼痛！传染性强！有人拆快递后感染此病毒！“双11”紧急提醒→

4 月前

文名 · 我原创整理、自用学习的15大系列资料作用介绍，一般人我不告诉他！

3 月前

涵江时讯 · 赤港开发区开展“金蛇迎春庆新年”春节游园活动

4 周前