文章预览
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 无需数据标注, 在测试时做强化学习 ,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化—— 结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做 AIME 2024竞赛题的成绩直接提高了159% 。 实验过程中,强化学习的 数据均由被训练的模型自身生成 。 作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签 (测试时强化学习过程中产生) 。 DeepMind工程师评价,这种测试时强化学习的方式将改变LLM的格局: 它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。 模型自己生成强化学习数据 作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为“生成
………………………………