大模型靠强化学习就能无限变强？清华泼了一盆冷水

AI工程化 · 公众号 · AI · 2025-04-26 12:17

文章预览

近一阶段，强化学习成为进一步提升大模型能力的共识路径，这时候，你是不是也觉得，给大模型套上强化学习（RL）的缰绳，再用上那些能自动验证对错的奖励机制（RLVR），就能让它们像打了鸡血一样，推理能力蹭蹭往上涨，实现模型自我进化，“左脚踩右脚”不断飞升。然而，清华大学近期的一项研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?（强化学习真的会激励 LLMs 基模型之外的推理能力吗？）》为这一乐观预期泼了一盆冷水。该研究通过深入分析指出，尽管RL训练能够显著提升模型在特定基准（如pass@1）上的表现，但可能并未从根本上拓展模型推理能力的边界。研究采用了 pass@k （模型在k次尝试内解决问题的成功率）作为核心评估指标。结果显示，虽然经过RL训练的模型在少量尝试（低k值）下表现优于基 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博