文章预览
机器之心转载 作者:孙浩 RL + LLM 升级之路的四层阶梯。 2025 年伊始,RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,David Silver 去年在 RLC 上说 “(RL 受关注的程度)终将跨越 LLM 带来的低谷”,竟然来得如此之快。 PhD 这些年即将告一段落,这几个月梳理先前的工作,准备 Tutorial,借鉴了不少去年从 RLC 上听 David Silver 讲过的思想,在这个 “ RL Finally Generalizes (Shunyu Yao) ” 的时代到来之际,也一直想写一篇文章作为整理,恰好最近读 Silver 和 Sutton 一起写的 《经验时代》 (Welcome to the era of experience),结合了一些自己的思考和理解,在出发开会前写下这篇文章,抛砖引玉,希望在新加坡可以和大家有更多的深度交流【关于 RL,Alignment,Reasoning,Agent,MCP,以及其他有关 AGI 的一切!】 RLxLLM 的当下 成功归于 In
………………………………