专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

o1 实现方法碎碎念

关于NLP那些你不知道的事 · 公众号 · · 2024-10-25 08:00

文章预览

作者：朱小霖原文地址： https://zhuanlan.zhihu.com/p/839732117 最近几周都在开心地猜 o1 可能是怎么做的，目前思路上相对收敛了，所以来记录一下，一方面是可以等答案揭晓的时候拿来对比看看，另一方面是自己手里没有真的能去验证想法的资源，所以也可以把心收回去去补落下的工作，等社区的各种资源（例如数据集）更完备再说了。目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型，来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候，有 2 个点是比较重要的：一个是如何定义一种通用的 reward。我认为 openai 训练的 reward model 不应该是专门用来做数学题或者代码题的，而是应该用来判断模型的回答多大程度上有了某种更通用的特性，因为只有这样才能让这个 reward model 带 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博