一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

机器学习算法与自然语言处理  · 公众号  ·  · 2025-03-08 00:21
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 新智元 编辑 | 桃子 好困 用上DeepSeek核心算法,也能击败R1。 在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。 甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍! 「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。 它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。 对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章