专栏名称: 海外独角兽
研究科技大航海时代的伟大公司。
今天看啥  ›  专栏  ›  海外独角兽

LLM 新范式:OpenAI o1,self-play RL 和 AGI 下半场

海外独角兽  · 公众号  · 科技公司  · 2024-09-13 19:06

文章预览

本期内容是「全球大模型季报」的第四集,拾象科技 CEO 李广密和商业作者张小珺围绕 AGI 发展路径展开了猜想,self-play RL 是新的 scaling law。 这期讨论录制于 2 周前,随着今天凌晨 OpenAI o1 模型的发布,我们的猜想得到验证,LLM 正式进入 self-play RL 范式时代。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司,在 o1 之前, Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑, Claude 3.5 Sonnet  代码能力显著提升的背后其实是 RL 在起作用; Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究 ;前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成 ,将 RL 从头部 AI Labs 的尝试向全行业扩散。 o1 只是 AGI 下半场的开始,接下来 Anthropic Claude 3.5 系列新模型的发布也同样值得期待,Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览