专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

OpenAI-o3 与 Monte-Carlo 思想

AINLP  · 公众号  ·  · 2025-01-01 10:10
    

文章预览

o3 来了,分享一些个人的浅见。关于 Test-time Scaling Law 的进展,比我们想象中的要快得多。但我想说的是,这条路其实有些曲折——它是 OpenAI 在追求 AGI 的道路上,采取的 曲线救国 之策。 知乎 :Hwcoder 地址 :https://zhuanlan.zhihu.com/p/13874010901 编辑 :深度学习自然语言处理 强化学习与捷径思维 为什么会这样说呢?我们通过两个例子来探讨。 第一个例子来自强化学习。在 RL 中,折扣因子 扮演着关键角色,它意味着越往后的决策步骤,所获得的奖励将会逐渐减少。因此,强化学习的目标通常是尽量 以最短的时间和最少的步骤获得最大化的奖励 。这种策略的核心,是强调「捷径」,即尽可能快速地得到回报。 第二个例子是大模型的微调过程。一个未经微调的预训练模型,往往没有明确的指向性和控制能力。当我们询问模型「中国的首都在哪里?」时 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览