被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路

机器之心 · 公众号 · AI · 2025-04-24 12:13

文章预览

机器之心转载作者：孙浩 RL + LLM 升级之路的四层阶梯。 2025 年伊始，RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，David Silver 去年在 RLC 上说 “（RL 受关注的程度）终将跨越 LLM 带来的低谷”，竟然来得如此之快。 PhD 这些年即将告一段落，这几个月梳理先前的工作，准备 Tutorial，借鉴了不少去年从 RLC 上听 David Silver 讲过的思想，在这个 “ RL Finally Generalizes (Shunyu Yao) ” 的时代到来之际，也一直想写一篇文章作为整理，恰好最近读 Silver 和 Sutton 一起写的《经验时代》 (Welcome to the era of experience)，结合了一些自己的思考和理解，在出发开会前写下这篇文章，抛砖引玉，希望在新加坡可以和大家有更多的深度交流【关于 RL，Alignment，Reasoning，Agent，MCP，以及其他有关 AGI 的一切！】 RLxLLM 的当下成功归于 In ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 网友说想生成怀抱美女的图片，怎么也生成不了，其实很简单的，模仿泰-20250426150703

昨天

宝玉xp · 回复@小陈minichan://@小陈minichan:imag-20250426132225

昨天

宝玉xp · 作为一个“正经”博主，看到图1 那种图片是不好意思去问人说这女演-20250426011605

2 天前

宝玉xp · 回复@真的真的是最后亿个号了:我只是列了两个年代的提示词作为参考-20250425235631

2 天前

爱可可-爱生活 · 【[849星]mad-professor-public：一个让读-20250424211304

3 天前