专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

AINLP  · 公众号  ·  · 2024-10-08 10:09

文章预览

在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图: 这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。 我们之前说过, 这是一张高度抽象的框架图 ,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。 今天我们要具体扩展的,就是框架图中的Inference部分(黄色块), 从框架图可知,Inference部分一般有两个作用: 作用1:直接对inference过程进行优化,具体的优化方法例如 : PRM + some search methods 。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览