文章预览
©作者 | 蒋锦昊,陈志朋,闵映乾 单位 | 中国人民大学 研究方向 | 大语言模型与推荐系统 来自 | PaperWeekly LLM所有 细分方向 群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入! 近年来,类似于 OpenAI 的 o1 等慢思考(slow-thinking)推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前,经过较长时间的思考与推理,能够生成更加全面、准确且有理有据的解决方案。 然而,这些系统主要由工业界开发和维护,其核心技术尚未公开披露。因此,越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下,我们的团队致力于实现类似于 o1 的推理系统,希望开发一个技术开放的慢思考推理模型。 本文介绍了我们在复现 o1 类推理系统方面的研究进展,提出了一个 “模仿、探索和自我提
………………………………