专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

模仿、探索与自我提升：慢思考推理系统的复现之路

PaperWeekly · 公众号 · 科研 · 2024-12-16 12:30

文章预览

©作者 | 蒋锦昊，陈志朋，闵映乾单位 | 中国人民大学研究方向 | 大语言模型与推荐系统近年来，类似于 OpenAI 的 o1 等慢思考（slow-thinking）推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前，经过较长时间的思考与推理，能够生成更加全面、准确且有理有据的解决方案。然而，这些系统主要由工业界开发和维护，其核心技术尚未公开披露。因此，越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下，我们的团队致力于实现类似于 o1 的推理系统，希望开发一个技术开放的慢思考推理模型。本文介绍了我们在复现 o1 类推理系统方面的研究进展，提出了一个 “模仿、探索和自我提升” 的框架，作为训练推理模型的主要技术手段。在本工作中，我们仅使用 1100 条蒸馏的长思维链数据作 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博