专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

模仿、探索与自我提升：慢思考推理系统的复现之路

深度学习自然语言处理 · 公众号 · · 2024-12-18 11:45

文章预览

©作者 | 蒋锦昊，陈志朋，闵映乾单位 | 中国人民大学研究方向 | 大语言模型与推荐系统来自 | PaperWeekly LLM所有细分方向群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入！近年来，类似于 OpenAI 的 o1 等慢思考（slow-thinking）推理系统在解决复杂推理任务方面展现了卓越的能力。这些系统在回答查询之前，经过较长时间的思考与推理，能够生成更加全面、准确且有理有据的解决方案。然而，这些系统主要由工业界开发和维护，其核心技术尚未公开披露。因此，越来越多的研究工作开始致力于探索这些强大推理系统背后的技术基础。在此背景下，我们的团队致力于实现类似于 o1 的推理系统，希望开发一个技术开放的慢思考推理模型。本文介绍了我们在复现 o1 类推理系统方面的研究进展，提出了一个 “模仿、探索和自我提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博