LLM的范式转移：RL带来新的 Scaling Law

海外独角兽 · 公众号 · 科技公司 · 2024-08-30 20:12

主要观点总结

自 Sam Altman 发布草莓照片以来，整个行业都在期待 OpenAI 的新模型。新模型 Strawberry 将使用合成数据的方法，大幅提高 LLM 的智能推理能力，特别是在数学解题、解字谜、代码生成等复杂推理任务。该方法也会用在 GPT 系列的提升上，帮助 OpenAI 新一代 Orion。强化学习和自我对弈是多个公司研究的方向，如 Google 的 AlphaGeometry 2 + Alphaproof 和 Anthropic 的 Claude 3.5。当前 LLM 的扩展性边际收益递减，强化学习和自我对弈成为新的技术范式。在新范式下，LLM 领域的扩展性会从模型参数量的增加转移到推理时间的计算增加。本文将探讨强化学习如何给 LLM 带来新一波的智能提升，以及这对未来投资、创业的影响。

关键观点总结

关键观点1: OpenAI 的新模型 Strawberry 预期使用合成数据方法提升 LLM 推理能力

新模型将大幅提高 LLM 的智能推理能力，特别是在数学解题、解字谜、代码生成等复杂推理任务。

关键观点2: 强化学习和自我对弈成为多个公司研究的方向

Google 的 AlphaGeometry 2 + Alphaproof 和 Anthropic 的 Claude 3.5 是强化学习和自我对弈的代表。

关键观点3: 当前 LLM 的扩展性边际收益递减，强化学习和自我对弈成为新的技术范式

新范式下，LLM 的扩展性会从模型参数量的增加转移到推理时间的计算增加。

关键观点4: 强化学习如何给 LLM 带来新一波的智能提升

在新范式下，LLM 的智能提升将主要来源于强化学习和自我对弈，而不是单纯的模型参数增加。

关键观点5: 强化学习和自我对弈对未来投资、创业的影响

强化学习和自我对弈为 LLM 领域带来了新的投资机会，包括 AI for coding、Reasoning model Lab、Vertical reward model 等。

文章预览

作者：Cage 从几周前 Sam Altman 在 X 上发布草莓照片开始，整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道，Strawberry 就是之前的 Q-star，其合成数据的方法会大幅提升 LLM 的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上，帮助 OpenAI 新一代 Orion。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司，Google 用 AlphaGeometry 2 + Alphaproof 夺得 IMO 银牌之后，基于 LLM 做 reward model 的思路发了多篇 paper。 Anthropic Claude 3.5 的代码能力显著提升，我们猜测也是以这样的思路去引领变化。今年以来我们观察到 LLM scaling up 的边际收益开始递减，用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下，LLM 领域的 scaling law 会发生变化：计算量变大仍会带来模型智能的提升，但会从模型参数量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博