专栏名称: 张小珺
商业写作者、播客主理人,描摹我们时代的商业、文化和新知。
今天看啥  ›  专栏  ›  张小珺

【大模型季报】AGI范式大转移:从LLM到self-play RL

张小珺  · 公众号  ·  · 2024-09-14 12:10

文章预览

这 是我和广密 【全球大模型季报】 第四集的文字版。这期2024年Q3季报,提前和大家见面。 2024年9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。 这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。 本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。 大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。 Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览