OpenAI o1 技术详解2：MCTS增强推理（代码级）

包包算法笔记 · 公众号 · · 2024-10-10 10:00

文章预览

上篇： OpenAI o1 技术系列1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力在o1的整体框架篇中（https://zhuanlan.zhihu.com/p/773907223），我们从现有开源的论文和代码中（https://github.com/hijkzzz/Awesome-LLM-Strawberry），抽象出了o1可能的技术实现路径，如下图：这里对于这张框架图我们不再做赘述，详情可以参见上面《框架篇》的文章链接。我们之前说过，这是一张高度抽象的框架图，旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上，以提升模型的逻辑推理能力”的含义。而从本文开始，我们将以具体的算法去扩展这张框架图的细节。今天我们要具体扩展的，就是框架图中的Inference部分（黄色块），从框架图可知，Inference部分一般有两个作用：作用1：直接对inference过程进行优化，具体的优化方法例如： PRM + some search methods 。其中PRM表 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博