OpenAI o1技术初探3：如何让模型拥有自我纠错的能力

大猿搬砖简记 · 公众号 · · 2024-10-09 15:04

文章预览

在这个系列之前的文章中：我们探索了o1（可能基于test-time scaling law）做的基本框架。以及框架中的一块积木（靠纯inference优化来增强逻辑推理能力，我们分别列举了“PRM+some search methods”以及“MCTS”两种方法，本质上来说这两种都是MCTS-style的评估-搜索方法）在这篇文章中，我们来探索另一块更好玩的积木： “o1是如何拥有自我纠错的能力的？” 。在下文中，我会基于自己的猜想，把o1的这种self-correction的能力与基于强化学习的post-training过程，以及我们上篇中所说的MCTS过程串起来。同样，这也是我在阅读相关论文，及观察o1输出结果demo后给出的自己的猜想，具有强主观性，大家选择性阅读。一、o1 demo中体现的自我纠错能力在openai o1官网的例子中（https://openai.com/index/learning-to-reason-with-llms/），当我们展开模型回复结果里thought for xx seconds ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

最江阴 · 最新消息，每人可省500元！

7 小时前

田俊国讲坛 · 【2月26日】第32期《10天非凡心力训练营》开营，欢迎报名参加！

13 小时前

ZaomeDesign · 每日灵感丨二月二十日

昨天

田俊国讲坛 · 【2月26日】第32期《10天非凡心力训练营》开营，欢迎报名参加！

2 天前

田俊国讲坛 · 田俊国：别怪学生刷抖音！课堂的本质是“看见”的交换

2 天前

国家粮油信息中心 · 安徽再生稻喜获丰收　江淮粮仓更丰盈

6 月前

迪中传媒集团 · 美国歌手“CA妈”将于明年初在阿布扎比登台献唱

3 月前

安徽商报 · 美国失联飞机已坠毁，机上10人均遇难

1 周前