也来猜猜 o1 实现方法

包包算法笔记 · 公众号 · · 2024-10-07 08:44

文章预览

作者：朱小霖链接：https://zhuanlan.zhihu.com/p/839732117 最近几周都在开心地猜 o1 可能是怎么做的，目前思路上相对收敛了，所以来记录一下，一方面是可以等答案揭晓的时候拿来对比看看，另一方面是自己手里没有真的能去验证想法的资源，所以也可以把心收回去去补落下的工作，等社区的各种资源（例如数据集）更完备再说了。目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型，来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候，有 2 个点是比较重要的：一个是如何定义一种通用的 reward。我认为 openai 训练的 reward model 不应该是专门用来做数学题或者代码题的，而是应该用来判断模型的回答多大程度上有了某种更通用的特性，因为只有这样才能让这个 reward model 带来的模型能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

蓝鲸新闻 · 王宝强再困“八角笼中”：被电影原型举报欺诈，制片人称已按合同付款

昨天

蓝鲸新闻 · 王宝强再困“八角笼中”：被电影原型举报欺诈，制片人称已按合同付款

昨天

反派影评 · 《风流一代》内地院线版删改预警

2 天前

深焦DeepFocus · 金鸡影展ITG特别展映丨有一种先行，叫ITG

3 天前

广电独家 · 优酷《珠帘玉幕》带热北海合浦“文博游”，周末客流翻倍成年轻人打开假期新方式

4 天前

中央戏剧学院就业创业指导中心 · 招贤榜 | 贝壳星辰（北京）网络文化传媒有限公司

4 天前

爱范儿 · iQOO Neo9S Pro+ 新品画报：2899 元，有骁龙 8 Gen3 有独显，还有双 5000 万相机的新卷王

4 月前

前程无忧51job · 秋招开启！“前程无忧秋招季”上新啦！

3 月前

中山市教育和体育局 · 免费领门票→2024年高校大学生篮球邀请赛即将开赛

1 月前

21ic电子网 · 芯片巨头血洗高层！

1 月前

福州城投新基建集团有限公司 · 【城投新基建】新基建集团领导周末巡查重点项目

1 月前