讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

REFT:强化微调推理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-14 00:03
    

文章预览

24年1月来自字节的论文“REFT: Reasoning with REinforced Fine-Tuning”。 增强大语言模型 (LLM) 推理能力的一种方法,是使用思维链 (CoT) 注释进行监督微调 (SFT)。然而,这种方法没有表现出足够强的泛化能力,因为训练仅依赖于给定的 CoT 数据。例如,在数学问题解决中,训练数据中每个问题通常只有一条带注释的推理路径。直观地讲,给定一个问题,算法从多条带注释的推理路径中学习会更好。为了解决这个问题,一种简单而有效的方法,称为强化微调 (ReFT),增强学习 LLM 用于推理的泛化能力,以数学问题解决为例。 ReFT 首先使用 SFT 对模型进行热身,然后采用在线强化学习(具体为本文中 PPO 算法)进一步微调模型,其中给定问题会自动采样大量推理路径,并且奖励自然来自真实答案。在 GSM8K、MathQA 和 SVAMP 数据集上进行的大量实验表明,ReFT 明显优于 SFT ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览