整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

openai o1复现:自动构造prm训练数据-OmegaPRM

关于NLP那些你不知道的事  · 公众号  ·  · 2024-10-23 08:00
    

文章预览

openai o1复现:自动构造prm训练数据-OmegaPRM 作者:cmathx 转载链接:https://zhuanlan.zhihu.com/p/1477078851 openai o1复现中,有个比较关键的问题,怎么样自动化构造prm模型的训练数据?本文主要从代码层面,来解析OmegaPRM原理。 论文 Improve Mathematical Reasoning in Language Models by Automated Process Supervision 论文地址:https://arxiv.org/abs/2406.06592 原理 Markov决策过程 OmegaPRM State:对应Markov决策过程中的状态,rollout:对应Markov决策过程中的动作; step1:初始化root节点state;每个state包含n个扩展rollouts,q+pa作为prompt,进行n次llm生成采样;基于bootstrap采样方法估计Monte Carlo模拟正确答案的概率mc; step2:从所有节点中,基于UCB1(Explore & 方法)选取最优的“state和rollout”,添加到PRM训练集; Exploit:alpha ** (1 - mc) * beta ** (len(r) / L),其中:mc表示蒙特卡洛模拟正确答案概率、len(r)表示LL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览