专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

NeurIPS 2024|清华、加州理工重磅研究:强化自训练方法 ReST-MCTS*,让大模型持续“升级”

学术头条  · 公众号  ·  · 2024-11-04 10:00
    

文章预览

大语言模型(LLM)的自训练(self-training),是验证 Scaling Law 能否继续奏效的关键方法之一。 然而,由于 「错误或无用的中间奖励信号」 ,现有自训练方法通常会产生低质量的微调训练集(如不正确的规划或中间推理),尽管这可能不会影响 LLM 在一些任务中的正确性,但却会 限制 LLM 微调复杂任务的最终性能 。 语言模型生成的错误或者无用的中间推理步骤,也可能产生正确的解题思路。也就是说,即使推理路径产生正确的解题思路,也不一定意味着整个路径是准确的。 解决方 法之一是 使用价值函数或者奖励模型来验证推理路径的正确性,然后作为自训练的学习信号。然而,训练一个可靠的奖励模型来验证推理路径中的每一步,通常依赖于密集的人类标注(每个推理步骤),并不能很好地扩展。 如今,来自 清华大学知识工程研究室(KEG) 和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览