【大模型季报】AGI范式大转移：从LLM到self-play RL

张小珺 · 公众号 · · 2024-09-14 12:10

文章预览

这是我和广密【全球大模型季报】第四集的文字版。这期2024年Q3季报，提前和大家见面。 2024年9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。 Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博