专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）

GiantPandaCV · 公众号 · 3D · 2024-10-27 22:39

文章预览

在o1的整体框架篇中（https://zhuanlan.zhihu.com/p/773907223），我们从现有开源的论文和代码中（https://github.com/hijkzzz/Awesome-LLM-Strawberry），抽象出了o1可能的技术实现路径，如下图：这里对于这张框架图我们不再做赘述，详情可以参见上面《框架篇》的文章链接。我们之前说过，这是一张高度抽象的框架图，旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上，以提升模型的逻辑推理能力”的含义。而从本文开始，我们将以具体的算法去扩展这张框架图的细节。今天我们要具体扩展的，就是框架图中的Inference部分（黄色块），从框架图可知，Inference部分一般有两个作用：作用1：直接对inference过程进行优化，具体的优化方法例如： PRM + some search methods 。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博