文章预览
专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 作者:曹宇,阿里巴巴集团 · 大模型练习生,AI 系统及算法方向 原文:https://zhuanlan.zhihu.com/p/720106482 OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩,同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主,在时效性方面肯定卷不过其他营销号了,所以这次准备了大概一万字的内容,彻底深入分析并推演一遍其中的相关技术细节。 o1,而今迈步从头越 首先要说一下,o1是一个多模态模型,很多人包括 Jim Fan 都忽略了这一点: 因此他继续叫做o,作为omni系列是没有任何疑问的。只不过这次发布是过于低调了,很多人
………………………………