【ACL2024】通过直接偏好优化的自训练提升链式思维推理

数据派THU · 公众号 · 大数据 · 2024-08-05 17:21

文章预览

来源：专知本文为论文介绍，建议阅读 5 分钟在这项工作中，我们展示了小规模语言模型的推理能力可以通过自训练得到增强，自训练是指模型从其自身输出中学习的过程。在数学推理任务中有效训练语言模型（LMs）需要高质量的有监督微调数据。除了从人类专家那里获得注释，常见的替代方法是从更大且更强大的语言模型中采样。然而，这种知识蒸馏方法可能成本高昂且不稳定，特别是依赖于如GPT-4（OpenAI, 2023）这样封闭源码的专有模型时，其行为往往不可预测。在这项工作中，我们展示了小规模语言模型的推理能力可以通过自训练得到增强，自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化（Direct Preference Optimization, DPO）的方法进一步增强。通过将DPO整合到自训练中，我们利用偏好数据引 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博