专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

相关文章推荐

品牌星球Brandstar · 母公司年收入 35 亿，橘朵推出首个副牌 · 11 小时前

新熵 · 高德、百度地图，决战智驾下半场 · 12 小时前

吉安发布 · 3000个学位，市中心城区又一所中学9月将迎新生！ · 昨天

上观新闻 · 就在今天，重磅推出！全球最大车展上海启幕，超 ... · 昨天

sven_shi · 我以前解释彩礼开篇第一句给彩礼下定义，是那么 ... · 2 天前

今天看啥 › 专栏 › 专知

模仿、探索与自我提升：慢思考推理系统的复现之路

专知 · 公众号 · · 2024-12-15 11:00

文章预览

© 作者｜蒋锦昊，陈志朋，闵映乾机构｜中国人民大学研究方向｜大语言模型与推荐系统近年来，类似于 OpenAI 的 o1 等慢思考（slow-thinking）推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前，经过较长时间的思考与推理，能够生成更加全面、准确且有理有据的解决方案。然而，这些系统主要由工业界开发和维护，其核心技术尚未公开披露。因此，越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下，我们的团队致力于实现类似于 o1 的推理系统，希望开发一个技术开放的慢思考推理模型。本文介绍了我们在复现 o1 类推理系统方面的研究进展，提出了一个 “模仿、探索和自我提升” 的框架，作为训练推理模型的主要技术手段。在本工作中，我们仅使用 1100 条蒸馏的长思维链数据 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

品牌星球Brandstar · 母公司年收入 35 亿，橘朵推出首个副牌

11 小时前

品牌星球Brandstar · 母公司年收入 35 亿，橘朵推出首个副牌

11 小时前

新熵 · 高德、百度地图，决战智驾下半场

12 小时前

新熵 · 高德、百度地图，决战智驾下半场

12 小时前

吉安发布 · 3000个学位，市中心城区又一所中学9月将迎新生！

昨天

吉安发布 · 3000个学位，市中心城区又一所中学9月将迎新生！

昨天

上观新闻 · 就在今天，重磅推出！全球最大车展上海启幕，超百款新车扎堆首发

昨天

上观新闻 · 就在今天，重磅推出！全球最大车展上海启幕，超百款新车扎堆首发

昨天

sven_shi · 我以前解释彩礼开篇第一句给彩礼下定义，是那么说的：彩礼是国家通过-20250422230518

2 天前

宠业家 · 向外看丨京东上线价保新规；好评返现构成违法；抖音电商保证金下调

10 月前

BMC科研永不止步 · 深入解析Q175亨廷顿小鼠的“行为密码”：年龄、性别与体重的奇妙交织 | BMC Biology

10 月前

深蓝AI · 机器人“团队大脑”升级：DiMOpt如何重塑多机器人轨迹规划过程？

7 月前

医业观察 · 3家IVD企业，注销20款试剂盒！

5 月前

第1眼新闻 · 铜梁区委书记谭庆涉嫌严重违纪违法接受审查调查

3 月前