OpenAI o1 self-play RL 技术路线推演

包包算法笔记 · 公众号 · · 2024-09-18 10:00

文章预览

知乎：曹宇链接：https://zhuanlan.zhihu.com/p/720106482 OpenAI 的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩，同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主，在时效性方面肯定卷不过其他营销号了，所以这次准备了大概一万字的内容，彻底深入分析并推演一遍其中的相关技术细节。 o1，而今迈步从头越首先要说一下，o1是一个多模态模型，很多人包括 Jim Fan 都忽略了这一点：因此他继续叫做o，作为omni系列是没有任何疑问的。只不过这次发布是过于低调了，很多人都没有注意到这个拉爆了所有其他多模态框架的78.1分。那么这个o1，说明这个技术路线就是一个全新的模型pipeline 弄出来的了。作为一个全新的多模态Self-play RL模型，首秀的成绩还是相当不错的。虽然现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

广东疾控 · 痛风隐藏的4大原因，快来看看你有没有……

22 小时前

丁香医生 · 配料表超干净的牛肉条，好吃不易胖！

昨天

中国土木工程集团有限公司 · 悦己女神节养生新风尚

3 天前

上海发布 · 【便民】年关将至，公共场所防火避险需警惕→

1 月前

美股研究社 · 市场又一次错误选择！七巨头中最便宜，谷歌被严重低估了！

2 周前

清华经管学院职业发展中心 · 招聘 | 顺丰集团2025届春季校园招聘正式启动！

1 周前