注册登录

专栏名称: 深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

每天发现一家店 · 低价捡漏 - 1126 · 3 天前

什么值得买 · 好消息！港卡可以网申了，手把手教你在线开户！ · 4 天前

什么值得买 · 微信将推出“14天后自动清理原图”功能；7万 ... · 4 天前

今天看啥 › 专栏 › 深度学习与NLP

OpenAI o1 self-play RL 技术路线推演

深度学习与NLP · 公众号 · · 2024-09-19 00:00

文章预览

知乎：曹宇链接：https://zhuanlan.zhihu.com/p/720106482 OpenAI 的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩，同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主，在时效性方面肯定卷不过其他营销号了，所以这次准备了大概一万字的内容，彻底深入分析并推演一遍其中的相关技术细节。 o1，而今迈步从头越首先要说一下，o1是一个多模态模型，很多人包括 Jim Fan 都忽略了这一点：因此他继续叫做o，作为omni系列是没有任何疑问的。只不过这次发布是过于低调了，很多人都没有注意到这个拉爆了所有其他多模态框架的78.1分。那么这个o1，说明这个技术路线就是一个全新的模型pipeline 弄出来的了。作为一个全新的多模态Self-play RL模型，首秀的成绩还是相当不错的。虽然现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

每天发现一家店 · 低价捡漏 - 1126

3 天前

什么值得买 · 好消息！港卡可以网申了，手把手教你在线开户！

4 天前

什么值得买 · 微信将推出“14天后自动清理原图”功能；7万件羽绒服查出含绒量为0

4 天前

丁香园 · 为救人没完成考试，她被协和医学院录取

5 月前

南风窗 · 国务院食安办通报“罐车运输食用植物油乱象问题”调查处置情况

3 月前

万鑫论金 · 本周将迎数据包洗礼！沪指险守2800点

2 月前

公考齐麟 · 【每天一个小方法】一天一题学数量194（几何问题有很多送分哒~）

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号