专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式

PaperWeekly  · 公众号  · 科研  · 2025-02-07 13:14
    

文章预览

© 来源 |  机器之心 在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案: 仅需 817 条精心设计的样本 ,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。这一发现不仅挑战了传统认知,更揭示了一个可能被我们忽视的事实:大模型的数学能力或许一直都在,关键在于如何唤醒它。 论文标题: LIMO: Less is More for Reasoning 论文链接: https://arxiv.org/pdf/2502.03387 代码链接: https://github.com/GAIR-NLP/LIMO 数据集链接: https://huggingface.co/datasets/GAIR/LIMO 模型链接: https://huggingface.co/GAIR/LIMO 从规模竞赛到范式创新 继 OpenAI 推出 o1 系列、打响推理能力竞赛的第一枪后 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览