专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

也来猜猜 o1 实现方法

深度学习与NLP  · 公众号  ·  · 2024-10-08 08:00

文章预览

来源: https://zhuanlan.zhihu.com/p/839732117 最近几周都在开心地猜 o1 可能是怎么做的,目前思路上相对收敛了,所以来记录一下,一方面是可以等答案揭晓的时候拿来对比看看,另一方面是自己手里没有真的能去验证想法的资源,所以也可以把心收回去去补落下的工作,等社区的各种资源(例如数据集)更完备再说了。 目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型,来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候,有 2 个点是比较重要的: 一个是如何定义一种通用的 reward。我认为 openai 训练的 reward model 不应该是专门用来做数学题或者代码题的,而是应该用来判断模型的回答多大程度上有了某种更通用的特性,因为只有这样才能让这个 reward model 带来的模型能力可以泛化到别 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览