专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  包包算法笔记

OpenAI o1技术详解3:让模型自我纠错

包包算法笔记  · 公众号  ·  · 2024-10-11 10:00

文章预览

在这个系列之前的文章中: 我们探索了o1(可能基于test-time scaling law), OpenAI o1 技术系列1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力 。 OpenAI o1 技术详解2:MCTS增强推理(代码级) (靠纯inference优化来增强逻辑推理能力 ,我们分别列举了“PRM+some search methods”以及“MCTS”两种方法,本质上来说这两种都是MCTS-style的评估-搜索方法) 在这篇文章中,我们来探索另一块更好玩的积木: “o1是如何拥有自我纠错的能力的?” 。 在下文中,我会基于自己的猜想,把o1的这种self-correction的能力与基于强化学习的post-training过程,以及我们上篇中所说的MCTS过程串起来 。 同样,这也是我在阅读相关论文,及观察o1输出结果demo后给出的自己的猜想,具有强主观性,大家选择性阅读。 一、o1 demo中体现的自我纠错能力 在openai o1官网的例子中(https://openai.c ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览