今天看啥  ›  专栏  ›  Founder Park

OpenAI o1是AGI下半场的开始,强化学习将成为新的 Scaling Law

Founder Park  · 公众号  · AI 科技媒体  · 2024-09-15 10:30

主要观点总结

随着OpenAI o1模型的发布,LLM正式进入self-play RL范式时代,预示新的scaling law的形成。OpenAI并非唯一重视RL和Self-Play的公司,其他公司如Anthropic Claude 3.5 Sonnet和Google也围绕LLM做reward model展开研究。o1的发布加速新范式共识的形成,将RL从头部AI Labs的尝试向全行业扩散。未来,Claude 3.5系列新模型的发布值得关注,它们的表现将是RL进程是否顺利的风向标。拾象科技CEO李广密与张小珺围绕AGI发展路径猜想,探讨了RL和合成数据如何帮助模型升级,基于LLM的RL和self play与以前的RL有何不同,以及模型Reasoning能力提升后的新机会。此外,李广密还讨论了强化学习(RL)的重要性,并预测了OpenAI o1模型和其他AI模型的发展。

关键观点总结

关键观点1: OpenAI o1模型发布,LLM进入self-play RL范式时代

OpenAI o1模型的发布标志着LLM正式进入self-play RL范式时代,预示新的scaling law的形成。

关键观点2: 其他公司重视RL和Self-Play

OpenAI并非唯一重视RL和Self-Play的公司,其他公司如Anthropic Claude 3.5 Sonnet和Google也围绕LLM做reward model展开研究。

关键观点3: o1的发布加速新范式共识的形成

o1的发布加速新范式共识的形成,将RL从头部AI Labs的尝试向全行业扩散。

关键观点4: Claude 3.5系列新模型的发布值得关注

未来,Claude 3.5系列新模型的发布值得关注,它们的表现将是RL进程是否顺利的风向标。

关键观点5: 强化学习(RL)的重要性

李广密讨论了强化学习(RL)的重要性,并预测了OpenAI o1模型和其他AI模型的发展。


文章预览

随着 OpenAI o1 模型的发布,LLM 正式进入 self-play RL 范式时代。 Self-play RL 似乎在一夜之间,成为了新的 scaling law。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司,在 o1 之前,Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑,Claude 3.5 Sonnet 代码能力显著提升的背后其实是 RL 在起作用;Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究;前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成,将 RL 从头部 AI Labs 的尝试向全行业扩散。 o1 只是 AGI 下半场的开始,接下来 Anthropic Claude 3.5 系列新模型的发布也同样值得期待,Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。 本期内容是海外独角兽「全球大模型季报」的第四集,录制于 2 周前,拾象科技 CEO 李广密和商业作者张小珺围绕 AGI 发展路径展开了猜想, 关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览