强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

深度图学习与大模型LLM · 公众号 · · 2024-09-26 14:34

文章预览

转载自 | 机器之心自我纠正（Self-correction）是大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。我们如何才能让 LLM 具备自我纠正能力？之前的研究要么依赖于提示工程，要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正，而后者基于微调的方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。在最近提交的一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博