讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

步步验证:多步推理中的过程监督

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-14 00:03
    

文章预览

23年5月来自OpenAI的论文“Let’s Verify Step by Step”。 近年来,大语言模型在执行复杂的多步骤推理的能力方面已大大提高。然而,即使是最先进的模型仍然经常产生逻辑错误。为了训练更可靠的模型,我们可以采用结果监督( ORM 为最终结果提供反馈)或过程监督( PRM 为每个中间推理步骤提供反馈)。鉴于训练可靠模型的重要性,以及人工反馈的高成本,仔细比较这两种方法非常重要。最近的工作已经开始了这种比较,但仍有许多问题。在训练模型解决具有挑战性的 MATH 数据集问题时,过程监督的表现明显优于结果监督。过程监督模型解决了 MATH 测试集代表性子集中 78% 的问题。此外,主动学习显著提高了过程监督的有效性。为了支持相关研究, PRM800K 发布用于训练最佳奖励模型带 800,000 步人工反馈标签的完整数据集。 Uesato (2022) 描述了两种不同的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览