文章预览
论文原作:arxiv.org/pdf/2305.18290 DPO是否优于RLHF 摘要 尽管 大规模无监督语言模型(LMs) 能够学习广泛的世界知识和一些推理技能,但由于其训练过程完全无监督,因此 很难实现对其行为的精确控制 。 当前, 为了获得这种可控性 ,已有方法会收集人类对不同模型生成质量的相对评价标签,并 通过结合人类反馈的强化学习(RLHF)来微调无监督LM ,以符合这些偏好。 然而,RLHF是一个复杂且往往不稳定的过程 ,首先需要构建一个反映人类偏好的奖励模型,然后使用强化学习来微调大型无监督LM,以最大化这一估计奖励,同时避免偏离原始模型太远。 在本文中, 我们提出了一种新的RLHF奖励模型参数化方法 ,该方法能够以封闭形式提取出相应的最优策略,从而使我们仅通过简单的分类损失就能解决标准的RLHF问题。 我们称这一算法为“直接偏好优化”
………………………………