完全使用「自生成数据」实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

机器学习研究组订阅 · 公众号 · AI · 2024-09-27 19:01

文章预览

OpenAI最新发布的o1模型再次证明了自我纠正、显式思考过程在大模型推理中的重要性，思维链可以帮助大模型分解复杂问题，利用计算和交互来改进模型在测试时的性能。不过，最近有多项研究结果表明，大模型在缺乏外部输入的情况下，基本上无法实现自我纠正，而现有的自我纠正训练方法要么需要多个模型，要么依赖更强大的模型或其他形式的监督信号。 Google DeepMind的研究人员发布了一种多轮在线强化学习（RL）方法 SCoRe，在完全使用自生成数据（entirely self-generated data）的情况下，显着提高了LLM的自我纠正能力。论文链接： https://arxiv.org/pdf/2409.12917 研究人员首先验证了有监督微调 (SFT) 及其变体得到的离线模型，生成的纠正轨迹（correction traces）不足以把自我纠正能力灌输（still）给语言模型。还可以观察到，通过 SFT 进行的训练要么会受到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [IR]《Language-Model Prior Overco-20241116061700

昨天

小互AI · 炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

4 天前

小互AI · 炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

4 天前

黄建同学 · 了解一下什么是Agentic RAG↓#ai##程序员# 文章介-20241110141441

6 天前

宝玉xp · AI可以帮助人写出好的Prompt，但只有人能写出高水平的Pro-20241110154134

6 天前

爱可可-爱生活 · 本文揭示了视觉语言模型驱动的自主Agent容易受到看似简单的恶意-20241110071313

1 周前

都市时报 · 教授与女下属签“亲密关系”承诺书？北师大回应

3 周前

人人都是产品经理 · 与生成式 AI 的 6 种对话类型

17 小时前