注册登录

专栏名称: 机器学习算法与Python学习

作为沟通学习的平台，发布机器学习与数据挖掘、深度学习、Python实战的前沿与动态，欢迎机器学习爱好者的加入，希望帮助你在AI领域更好的发展，期待与你相遇！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

高分子科学前沿 · 北京大学刘开辉教授团队AFM：突破耐高压瓶颈 ... · 20 小时前

道問丨Ziri · 【运营篇】如何搜索需要的问道攻略、资讯和心得？ · 昨天

运营研究社 · 视频号卖课低场观，高销售怎么做？（附直播优化攻略） · 昨天

高分子科学前沿 · 浙大胡宁、秦春莲/青岛理工朱晓阳/北航胡靓等 ... · 昨天

高分子科学前沿 · 新品前瞻｜突破800Hz极速边界！SCIEX ... · 2 天前

今天看啥 › 专栏 › 机器学习算法与Python学习

独家解读：OpenAI o1开启「后训练」时代强化学习新范式

机器学习算法与Python学习 · 公众号 · · 2024-09-20 14:48

文章预览

转自机器之心新的扩展律Post-Training已经出现，后训练的时代已经到来。 OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 < 问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。 AlphaGo 是强化学习在围棋领域中的一大成功，成功击败了当时的世界冠军。早在去年，Deepmind 的 CEO Demis Hassabis 便强调用 Tree Search 来增强模型的推理能力。根据相关人士推测，o1 的模型训练数据截止到去年十月份，而有关 Q * 的爆料大约是去年 11 月，这似乎展示 o1 的训练中也用到了 TreeSearch 的技巧。实际上，OpenAI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 北京大学刘开辉教授团队AFM：突破耐高压瓶颈！氧化石墨烯与碳纳米管复合膜助力高效纳滤技术

20 小时前

道問丨Ziri · 【运营篇】如何搜索需要的问道攻略、资讯和心得？

昨天

运营研究社 · 视频号卖课低场观，高销售怎么做？（附直播优化攻略）

昨天

高分子科学前沿 · 浙大胡宁、秦春莲/青岛理工朱晓阳/北航胡靓等合作ACS Nano：3D打印柔性纳米银电极阵列用于细胞内电生理记录的研究

昨天

高分子科学前沿 · 新品前瞻｜突破800Hz极速边界！SCIEX新一代ZT Scan DIA全景质谱采集技术详解

2 天前

运筹OR帷幄 · 交通 | 考虑客户随机性与相关性的TSP问题

11 月前

科研大匠 · IF=81！教科书式总结，颜宁团队发表该领域重要综述

9 月前

3d tof · "米哈游悄然布局未来科技：入股星海图，共绘具身智能机器人新篇章"

7 月前

CareerIn投行PEVC求职 · MBB咨询公司商学院讲义（38页）：咨询公司如何工作.pdf

7 月前

关于移动版 · RSS之家 · 卧龙AI搜索 · 更多产品 ·

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号