32B击败DeepSeek-R1、o3-mini，成本暴降100倍！GRPO让小模型称霸推理

机器学习算法与自然语言处理 · 公众号 · · 2025-03-08 00:21

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 新智元编辑 | 桃子好困用上DeepSeek核心算法，也能击败R1。在具有挑战性的「时间线索」（Temporal Clue）逻辑谜题中，基于强化学习微调后的Qwen 2.5 32B，推理能力完全碾压o1、o3-mini、R1。甚至，它还追平了Claude 3.7 Sonnet，整个模型推理成本暴降100多倍！「时间线索」逻辑谜题脱胎于经典桌游Clue，并加入了when、why的两个全新维度，堪称逻辑推理的「珠穆朗玛峰」。它不仅能考验模型基本推理能力，更爆料顶级大模型软肋。对此，前谷歌工程师，初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博