专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

量子位  · 公众号  · AI  · 2025-02-16 11:59
    

主要观点总结

文章介绍了上海AI Lab团队通过强化学习在数学推理任务上的突破。他们提出了一种新的基于结果奖励的强化学习算法,无需依赖大规模模型进行蒸馏,仅通过强化学习即可达到惊人的效果。该团队解决了稀疏奖励困境、局部正确陷阱和规模依赖魔咒等难题,并成功开源了相关数据和模型以促进研究比较和进一步研究。

关键观点总结

关键观点1: 上海AI Lab团队通过强化学习在数学推理任务上取得了突破。

团队通过重新审视当前基于结果奖励的强化学习算法,设计了一个新算法,该算法能够在不依赖超大规模模型进行蒸馏的情况下达到惊人的效果。

关键观点2: 团队解决了强化学习中面临的稀疏奖励困境、局部正确陷阱和规模依赖魔咒等难题。

为了解决这些问题,团队提出了新的策略优化框架,包括正负样本奖励重塑和结果奖励「因果溯源」等方法。

关键观点3: 团队将RL训练的数据、起点和最终模型开源,促进了社区的公平比较和进一步研究。

此外,为了比较不同基座模型下的性能表现,研究还发现了起点模型和训练数据的准备对最终结果的重要性。


文章预览

书理 投稿自 凹非寺 量子位 | 公众号 QbitAI 仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局: 稀疏奖励困境 :最终答案对错的二元反馈,使复杂推理的优化变得困难 局部正确陷阱 :长思维链中部分正确步骤反而可能误导模型学习 规模依赖魔咒 :传统蒸馏方法迫使研究者陷入”参数规模军备竞赛” 因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论: 对于正 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览