专栏名称: AI大模型实验室
关注分布式相关的开源项目和基础架构,致力于分析并报道这些新技术是如何以及将会怎样影响企业的软件构建方式。
今天看啥  ›  专栏  ›  AI大模型实验室

万字长文解析OpenAI o1 Self-Play RL技术路线

AI大模型实验室  · 公众号  ·  · 2024-09-20 12:10

文章预览

OpenAI 的 Self-Play RL 新模型 o1 最近交卷,直接引爆了关于对于 Self-Play 的讨论。在数理推理领域获得了傲人的成绩,同时提出了 train-time compute 和 test-time compute 两个全新的 RL Scaling Law。这篇文章用大概一万字的内容,彻底深入分析并推演一遍其中的相关技术细节。 #01 o1,而今迈步从头越 首先要说一下, o1 是一个多模态模型 ,很多人包括 Jim Fan 都忽略了这一点: 因此它继续叫做 o,作为 omni 系列是没有任何疑问的。只不过这次发布是过于低调了,很多人都没有注意到这个拉爆了所有其他多模态框架的 78.1 分。 那么这个 o1,说明这个技术路线就是一个全新的模型 pipeline 弄出来的了。作为一个全新的多模态 Self-Play RL 模型,首秀的成绩还是相当不错的。虽然现在评价该 Self-Play 方法是否能够泛化至多模态还为时尚早,但是至少语言层面的 Reasoning 能力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览