专栏名称: 酷酷的群
统计机器学习、深度学习、自然语言处理、图神经网络。
今天看啥  ›  专栏  ›  酷酷的群

直接偏好优化技术DPO基础理论及推导

酷酷的群  · 公众号  ·  · 2024-07-26 14:38
    

文章预览

论文标题:Direct Preference Optimization: Your Language Model is Secretly a Reward Model  论文链接:https://arxiv.org/abs/2305.18290 论文来源:NeurIPS 2023 一、概述 为了能够将语言模型的行为与人类偏好对齐,现有的方法使用精心设计的人类偏好数据集集,将期望的行为灌输到语言模型中,这些偏好数据集代表了人类认为安全和有益的行为类型。目前的大模型偏好对齐主要依赖于基于人类反馈的强化学习技术(Reinforcement Learning from Human Feedback, RLHF),RLHF方法利用奖励模型(Reward Model)拟合人类偏好数据集,然后使用强化学习技术优化语言模型策略(policy),以使其能够产生高奖励的响应,且不会偏离原始模型太远。虽然RLHF训练的模型具有令人印象深刻的对话和编码能力,但RLHF pipeline比监督学习要复杂得多,涉及在训练循环中训练多个语言模型并从语言模型策略中采样 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览