专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

模仿、探索与自我提升：类 o1 慢思考推理系统的复现之路

AINLP · 公众号 · · 2024-12-16 18:29

文章预览

© 作者｜蒋锦昊，陈志朋，闵映乾 ‍ ‍ 机构｜中国人民大学研究方向｜大语言模型与推荐系统近年来，类似于 OpenAI 的 o1 等慢思考（slow-thinking）推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前，经过较长时间的思考与推理，能够生成更加全面、准确且有理有据的解决方案。然而，这些系统主要由工业界开发和维护，其核心技术尚未公开披露。因此，越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下，我们的团队致力于实现类似于 o1 的推理系统，希望开发一个技术开放的慢思考推理模型。本文介绍了我们在复现 o1 类推理系统方面的研究进展，提出了一个 “模仿、探索和自我提升” 的框架，作为训练推理模型的主要技术手段。在本工作中，我们仅使用 1100 条蒸馏的长思维 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博