这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

OpenAI o1 self-play RL 技术路线推演

人工智能与算法学习  · 公众号  ·  · 2024-09-24 10:07
    

文章预览

导读 文章转载自知乎,作者为曹宇,本文对 train-time compute和test-time compute 相关技术上 可能的技术路线进行了推演,在整体思路上还原OpenAI o1的训练及推理时整体技术路径。 原文地址:https://zhuanlan.zhihu.com/p/720106482 本文只做学术/技术分享,如有侵权,联系删文。 OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩,同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主,在时效性方面肯定卷不过其他营销号了,所以这次准备了大概一万字的内容,彻底深入分析并推演一遍其中的相关技术细节。 01 o1,而今迈步从头越 首先要说一下,o1是一个多模态模型,很多人包括 Jim Fan都忽略了这一点: 因此他继续叫做o,作为omni系列是没有任何疑问的。只不过这次发布是过于低调了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览