文章预览
这 是我和广密 【全球大模型季报】 第四集的文字版。这期2024年Q3季报,提前和大家见面。 2024年9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。 这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。 本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。 大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。 Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥
………………………………