专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI-o3 与 Monte-Carlo 思想

AINLP · 公众号 · · 2025-01-01 10:10

文章预览

o3 来了，分享一些个人的浅见。关于 Test-time Scaling Law 的进展，比我们想象中的要快得多。但我想说的是，这条路其实有些曲折——它是 OpenAI 在追求 AGI 的道路上，采取的曲线救国之策。知乎：Hwcoder 地址：https://zhuanlan.zhihu.com/p/13874010901 编辑：深度学习自然语言处理强化学习与捷径思维为什么会这样说呢？我们通过两个例子来探讨。第一个例子来自强化学习。在 RL 中，折扣因子扮演着关键角色，它意味着越往后的决策步骤，所获得的奖励将会逐渐减少。因此，强化学习的目标通常是尽量以最短的时间和最少的步骤获得最大化的奖励。这种策略的核心，是强调「捷径」，即尽可能快速地得到回报。第二个例子是大模型的微调过程。一个未经微调的预训练模型，往往没有明确的指向性和控制能力。当我们询问模型「中国的首都在哪里？」时 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博