强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

机器学习研究组订阅 · 公众号 · AI · 2024-09-21 20:24

文章预览

无需依赖外部反馈或额外模型，纯纯的自我纠正。自我纠正（Self-correction）是大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。我们如何才能让 LLM 具备自我纠正能力？之前的研究要么依赖于提示工程，要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正，而后者基于微调的方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。在最近提交的一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Marco-o1：开源大型推理模型，专注于解决现实世界的开放性-20241123155539

2 天前

宝玉xp · 回复@CoolstoneYoung:- 位于美国境内且年满 18-20241120130030

5 天前

黄建同学 · Suno v4 🔥正式发布↓ #ai##音乐# 且通过了**图-20241120093850

5 天前

爱可可-爱生活 · 【Mistral AI Evals：一个用于运行Mistral -20241119140759

6 天前

爱可可-爱生活 · 今日推介(第1594期)：1000名个体的生成式智能体仿真、非平-20241119061244

6 天前

新微设计 · 正向能源宅 | 低碳生活

3 月前

中产集团 · 一周项目预告｜新兴热门产业！低空经济多项目等待对接！

2 月前

FM93交通之声 · 最新曝光！“萨德”到了……

1 月前