专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
今天看啥  ›  专栏  ›  智源社区

热门活动|李飞飞组工作,s1: 1000个思考样本激发大语言模型的Test-time Scaling

智源社区  · 公众号  ·  · 2025-02-13 18:42
    

文章预览

报告主题: s1: 一千个思考样本激发大语言模型的Test-time Scaling 报告日期: 02 月19日(本周三)10:30-11:30 报告要点: Test-time scaling 指大语言模型在测试阶段(Test-time)通过使用额外的计算来提升性能。我们寻求实现 test-time scaling 和强大推理性能的最简方法。首先 ,我们基于难度、多样性和质量这三个经过消融实验验证的标准,构建了一个包含1000个问题及其推理过程的小型数据集 s1K。其次,我们开发了 budget forcing 方法来控制测试时的计算量:当模型试图结束思考时,我们通过强制终止模型的思考过程或者通过多次添加 "Wait" 来延长其生成过程。这可以引导模型重新检查答案,从而修正错误的推理步骤。在用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调并使用 budget forcing 方法后, 我们的模型 s1-32B 在 AIME24 和 MATH 测试集上的表现超过 o1-preview。此外, 通过 budget f ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览