北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

arXiv每日学术速递 · 公众号 · · 2024-09-16 19:03

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。 AlphaGo 是强化学习在围棋领域中的一大成功，成功击败了当时的世界冠军。早在去年，Deepmind 的 CEO Demis Hassabis 便强调用 Tree Search ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 中科院化学所张军、张金明团队AFM：开关型水可回收纤维素基热塑材料

13 小时前

艾邦高分子 · 普利特，签署LCP薄膜量产合作！

昨天

高分子科技 · 浙江大学朱利平教授、阿尔伯塔大学曾宏波院士 Prog. Polym. Sci.：基于两亲共聚物的先进功能膜

5 天前

高分子科学前沿 · 南京工业大学王芳芳AM：逐步熔融-聚合分子实现疏水性晶粒级封装的钙钛矿太阳能电池

5 天前

高分子科学前沿 · 导电高分子，最新Nature Materials，标题仅4个单词！

5 天前