文章预览
o3 来了,分享一些个人的浅见。关于 Test-time Scaling Law 的进展,比我们想象中的要快得多。但我想说的是,这条路其实有些曲折——它是 OpenAI 在追求 AGI 的道路上,采取的 曲线救国 之策。 知乎 :Hwcoder 地址 :https://zhuanlan.zhihu.com/p/13874010901 编辑 :深度学习自然语言处理 强化学习与捷径思维 为什么会这样说呢?我们通过两个例子来探讨。 第一个例子来自强化学习。在 RL 中,折扣因子
扮演着关键角色,它意味着越往后的决策步骤,所获得的奖励将会逐渐减少。因此,强化学习的目标通常是尽量 以最短的时间和最少的步骤获得最大化的奖励 。这种策略的核心,是强调「捷径」,即尽可能快速地得到回报。 第二个例子是大模型的微调过程。一个未经微调的预训练模型,往往没有明确的指向性和控制能力。当我们询问模型「中国的首都在哪里?」时
………………………………