专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

GiantPandaCV  · 公众号  · 3D  · 2024-10-27 22:39
    

文章预览

在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图: 这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。 我们之前说过, 这是一张高度抽象的框架图 ,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。 今天我们要具体扩展的,就是框架图中的Inference部分(黄色块), 从框架图可知,Inference部分一般有两个作用: 作用1:直接对inference过程进行优化,具体的优化方法例如 : PRM + some search methods 。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览