专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

openai o1复现：自动构造prm训练数据-OmegaPRM

关于NLP那些你不知道的事 · 公众号 · · 2024-10-23 08:00

文章预览

openai o1复现：自动构造prm训练数据-OmegaPRM 作者：cmathx 转载链接：https://zhuanlan.zhihu.com/p/1477078851 openai o1复现中，有个比较关键的问题，怎么样自动化构造prm模型的训练数据？本文主要从代码层面，来解析OmegaPRM原理。论文 Improve Mathematical Reasoning in Language Models by Automated Process Supervision 论文地址：https://arxiv.org/abs/2406.06592 原理 Markov决策过程 OmegaPRM State：对应Markov决策过程中的状态，rollout：对应Markov决策过程中的动作； step1：初始化root节点state；每个state包含n个扩展rollouts，q+pa作为prompt，进行n次llm生成采样；基于bootstrap采样方法估计Monte Carlo模拟正确答案的概率mc； step2：从所有节点中，基于UCB1（Explore & 方法）选取最优的“state和rollout”，添加到PRM训练集； Exploit：alpha ** (1 - mc) * beta ** (len(r) / L)，其中：mc表示蒙特卡洛模拟正确答案概率、len(r)表示LL ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博