也来猜猜 o1 实现方法

深度学习与NLP · 公众号 · · 2024-10-08 08:00

文章预览

来源: https://zhuanlan.zhihu.com/p/839732117 最近几周都在开心地猜 o1 可能是怎么做的，目前思路上相对收敛了，所以来记录一下，一方面是可以等答案揭晓的时候拿来对比看看，另一方面是自己手里没有真的能去验证想法的资源，所以也可以把心收回去去补落下的工作，等社区的各种资源（例如数据集）更完备再说了。目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型，来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候，有 2 个点是比较重要的：一个是如何定义一种通用的 reward。我认为 openai 训练的 reward model 不应该是专门用来做数学题或者代码题的，而是应该用来判断模型的回答多大程度上有了某种更通用的特性，因为只有这样才能让这个 reward model 带来的模型能力可以泛化到别 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

深圳新闻网 · 韩国人大量买入中国股票

11 小时前

深圳新闻网 · 韩国人大量买入中国股票

11 小时前

杭州日报 · 心痛！谷爱凌，突传消息！

16 小时前

杭州日报 · 发现1例！毒性是砒霜的68倍！杭州人千万警惕…

21 小时前

浙里好市监 · 蒸汽眼罩选购避坑，别让护眼变伤眼！女神节必看→→

2 天前

钱江晚报 · 好甜！50岁贾静雯晒合照，为42岁修杰楷庆生

2 天前

北京基金业协会 · 【行业动态】总规模100亿元！一地壮大耐心资本护航科技创新

7 月前

人民网 · 12356来了！

2 月前

洪观新闻 · 英伟达：第四财季净利润220.91亿美元，同比增长80%

1 周前