今天看啥  ›  专栏  ›  大模型智能

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

大模型智能  · 公众号  · 科技自媒体  · 2025-03-09 00:00
    

主要观点总结

本文介绍了使用强化学习微调开源模型Qwen 2.5 32B以在具有挑战性的逻辑推理任务中击败顶尖模型的过程。文中详细介绍了如何通过GRPO强化学习算法训练模型进行推理,并在时间线索逻辑谜题上达到了前所未有的性能水平。

关键观点总结

关键观点1: 研究人员通过强化学习微调Qwen模型,使其在逻辑推理任务中表现出色。

使用了GRPO算法进行训练,简化了训练过程并提供了强大的性能。通过生成模型响应、评分、估计优势并使用这些优势估计指导裁剪策略梯度对模型进行微调,达到了峰值性能。模型经历了超过100次迭代训练后,实现了SOTA级的演绎推理能力。

关键观点2: 模型的性能提升遵循幂律分布,在对数-对数坐标图上呈现线性关系。

在训练过程中,性能提升迅速并在后期逐渐放缓,但准确率在末期出现退化。此外,模型响应长度在训练期间呈现出有趣的变化模式,初期逐步增加后趋于稳定,但在训练后期出现分化现象。

关键观点3: 研究结果表明,强化学习可以有效提高模型的逻辑推理能力。

通过与顶尖模型Claude Sonnet 3.7的对比评估,发现训练后的模型逻辑推理能力有所提升。此外,研究还提到了模型的成本效益,通过优化训练过程,可以在保证准确率的同时降低推理成本。


文章预览

大模型智能|分享 来源 | 新智元 编辑 | 桃子 好困 用上DeepSeek核心算法,也能击败R1。 在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。 甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍! 「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。 它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。 对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试炼场」,提出了一个大胆的假设—— 小模型在复杂推理任务中,能否逆袭,达到或超越顶尖LLM? 他们选用开源的Qwen模型(14B和32B),通过GRPO强化学习,对其进行了魔鬼式训练。 如前所见,这些小模型的推理性能,得到了显著 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览