OpenAI o1是AGI下半场的开始，强化学习将成为新的 Scaling Law

Founder Park · 公众号 · AI 科技媒体 · 2024-09-15 10:30

主要观点总结

随着OpenAI o1模型的发布，LLM正式进入self-play RL范式时代，预示新的scaling law的形成。OpenAI并非唯一重视RL和Self-Play的公司，其他公司如Anthropic Claude 3.5 Sonnet和Google也围绕LLM做reward model展开研究。o1的发布加速新范式共识的形成，将RL从头部AI Labs的尝试向全行业扩散。未来，Claude 3.5系列新模型的发布值得关注，它们的表现将是RL进程是否顺利的风向标。拾象科技CEO李广密与张小珺围绕AGI发展路径猜想，探讨了RL和合成数据如何帮助模型升级，基于LLM的RL和self play与以前的RL有何不同，以及模型Reasoning能力提升后的新机会。此外，李广密还讨论了强化学习（RL）的重要性，并预测了OpenAI o1模型和其他AI模型的发展。

关键观点总结

关键观点1: OpenAI o1模型发布，LLM进入self-play RL范式时代

OpenAI o1模型的发布标志着LLM正式进入self-play RL范式时代，预示新的scaling law的形成。

关键观点2: 其他公司重视RL和Self-Play

OpenAI并非唯一重视RL和Self-Play的公司，其他公司如Anthropic Claude 3.5 Sonnet和Google也围绕LLM做reward model展开研究。

关键观点3: o1的发布加速新范式共识的形成

o1的发布加速新范式共识的形成，将RL从头部AI Labs的尝试向全行业扩散。

关键观点4: Claude 3.5系列新模型的发布值得关注

未来，Claude 3.5系列新模型的发布值得关注，它们的表现将是RL进程是否顺利的风向标。

关键观点5: 强化学习（RL）的重要性

李广密讨论了强化学习（RL）的重要性，并预测了OpenAI o1模型和其他AI模型的发展。

文章预览

随着 OpenAI o1 模型的发布，LLM 正式进入 self-play RL 范式时代。 Self-play RL 似乎在一夜之间，成为了新的 scaling law。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司，在 o1 之前，Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑，Claude 3.5 Sonnet 代码能力显著提升的背后其实是 RL 在起作用；Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究；前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成，将 RL 从头部 AI Labs 的尝试向全行业扩散。 o1 只是 AGI 下半场的开始，接下来 Anthropic Claude 3.5 系列新模型的发布也同样值得期待，Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。本期内容是海外独角兽「全球大模型季报」的第四集，录制于 2 周前，拾象科技 CEO 李广密和商业作者张小珺围绕 AGI 发展路径展开了猜想，关 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博