注册登录

专栏名称: 深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

FM93交通之声 · 3名中国留学生在泰国遭绑架勒索150万泰铢！ ... · 昨天

FM93交通之声 · 才20多岁，年轻情侣双双离世！知情人发声 · 4 天前

钱江晚报 · 知名歌手时隔8年再回归！“消失这么久是因为生病” · 5 天前

FM93交通之声 · 突发：上海虹桥机场一廊桥起火 · 5 天前

FM93交通之声 · 上线当天卖出11万份！只要2元，很多人急需…… · 6 天前

今天看啥 › 专栏 › 深度学习与NLP

OpenAI o1复现：自动构造prm训练数据-OmegaPRM

深度学习与NLP · 公众号 · · 2024-10-23 00:00

文章预览

作者：cmathx 原文：https://zhuanlan.zhihu.com/p/1477078851 openai o1复现中，有个比较关键的问题，怎么样自动化构造prm模型的训练数据？本文主要从代码层面，来解析OmegaPRM原理。论文 Improve Mathematical Reasoning in Language... [1] 原理 Markov决策过程 OmegaPRM State：对应Markov决策过程中的状态，rollout：对应Markov决策过程中的动作； • step1 ：初始化root节点state；每个state包含n个扩展rollouts，q+pa作为prompt，进行n次llm生成采样；基于bootstrap采样方法估计Monte Carlo模拟正确答案的概率mc； • step2 ：从所有节点中，基于UCB1（Explore & 方法）选取最优的“state和rollout”，添加到PRM训练集；Exploit：alpha ** (1 - mc) * beta ** (len(r) / L)，其中：mc表示蒙特卡洛模拟正确答案概率、len(r)表示LLM生成的长度；Explore：c_puct * sqrt(N_sum) / (1 + s.v)，其中：N_sum表示所有节点的访问次数，s.v表示当前 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

FM93交通之声 · 3名中国留学生在泰国遭绑架勒索150万泰铢！细节曝光：多人持枪看守，威胁“不给钱就送到缅甸电诈园区”

昨天

FM93交通之声 · 才20多岁，年轻情侣双双离世！知情人发声

4 天前

钱江晚报 · 知名歌手时隔8年再回归！“消失这么久是因为生病”

5 天前

FM93交通之声 · 突发：上海虹桥机场一廊桥起火

5 天前

FM93交通之声 · 上线当天卖出11万份！只要2元，很多人急需……

6 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号