今天看啥  ›  专栏  ›  包包算法笔记

OpenAI o1 技术详解2:MCTS增强推理(代码级)

包包算法笔记  · 公众号  ·  · 2024-10-10 10:00

文章预览

上篇: OpenAI o1 技术系列1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力 在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图: 这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。 我们之前说过, 这是一张高度抽象的框架图 ,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。 今天我们要具体扩展的,就是框架图中的Inference部分(黄色块), 从框架图可知,Inference部分一般有两个作用: 作用1:直接对inference过程进行优化,具体的优化方法例如 : PRM + some search methods 。其中PRM表 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览