专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI o1技术初探3：如何让模型拥有自我纠错的能力

AINLP · 公众号 · · 2024-10-12 17:58

主要观点总结

本文主要探讨了o1模型在自我纠错能力方面的表现，结合MCTS（蒙特卡洛树搜索）等评估-搜索方法进行解释和分析。通过具体实例，文章阐述了模型是如何在推理过程中展现自我纠错能力的，并探讨了模型判断一个方案是否可行的可能方法。最后，文章介绍了SCoRe（Self-Correction via Reinforcement Learning）模型，一种可以对回答进行自我修正的强化学习模型，用于实现模型的自我纠错能力。

关键观点总结

关键观点1: o1模型的自我纠错能力

o1模型在推理过程中展现了自我纠错能力，通过一系列的动作空间采样和判断，模型能够对自己的答案进行自我验证和修正。

关键观点2: MCTS在o1模型中的应用

MCTS作为一种评估-搜索方法，被用于o1模型的推理过程中。通过模拟人类的思考方式，MCTS帮助模型在搜索空间中寻找最佳路径，从而实现自我纠错。

关键观点3: SCoRe模型介绍

SCoRe是一种自我修正的强化学习模型，可以实现模型的自我纠错能力。通过自我生成训练数据和多轮post-training（强化学习）的方式，SCoRe模型能够引导模型进行自我修正，提高答案的准确性。

文章预览

在这个系列之前的文章中：我们探索了o1（可能基于test-time scaling law）做的基本框架。以及框架中的一块积木（靠纯inference优化来增强逻辑推理能力，我们分别列举了“PRM+some search methods”以及“MCTS”两种方法，本质上来说这两种都是MCTS-style的评估-搜索方法）在这篇文章中，我们来探索另一块更好玩的积木： “o1是如何拥有自我纠错的能力的？” 。在下文中，我会基于自己的猜想，把o1的这种self-correction的能力与基于强化学习的post-training过程，以及我们上篇中所说的MCTS过程串起来。同样，这也是我在阅读相关论文，及观察o1输出结果demo后给出的自己的猜想，具有强主观性，大家选择性阅读。一、o1 demo中体现的自我纠错能力在openai o1官网的例子中（https://openai.com/index/learning-to-reason-with-llms/），当我们展开模型回复结果里thought for xx seconds ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博