注册
登录
专栏名称:
AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
Excel之家ExcelHome
·
快速拆分工作表,一个函数公式轻松搞定
·
2 天前
Excel之家ExcelHome
·
自动扩展的序号,与数据记录同步变动
·
5 天前
今天看啥
›
专栏
›
AINLP
模仿、探索与自我提升:类 o1 慢思考推理系统的复现之路
AINLP
·
公众号
· · 2024-12-16 18:29
文章预览
© 作者|蒋锦昊,陈志朋,闵映乾 机构|中国人民大学 研究方向| 大语言模型与推荐系统 近年来,类似于 OpenAI 的 o1 等慢思考(slow-thinking)推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前,经过较长时间的思考与推理,能够生成更加全面、准确且有理有据的解决方案。然而,这些系统主要由工业界开发和维护,其核心技术尚未公开披露。因此,越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下,我们的团队致力于实现类似于 o1 的推理系统,希望开发一个技术开放的慢思考推理模型。本文介绍了我们在复现 o1 类推理系统方面的研究进展,提出了一个 “模仿、探索和自我提升” 的框架,作为训练推理模型的主要技术手段。在本工作中,我们仅使用 1100 条蒸馏的长思维 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
Excel之家ExcelHome
·
快速拆分工作表,一个函数公式轻松搞定
2 天前
Excel之家ExcelHome
·
自动扩展的序号,与数据记录同步变动
5 天前
科技每日推送
·
今日最黑:既见蔚来,为何不buy
4 月前
宇宙解码
·
天文学家认为:太阳内部可能存在一个黑洞
2 月前
北航就业
·
招聘 | 海信集团 | 2025届校园招聘
2 月前