专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

LLM训练手法系列:直接偏好优化DPO

GiantPandaCV  · 公众号  · 3D  · 2024-08-24 23:49
    

文章预览

论文原作:arxiv.org/pdf/2305.18290 DPO是否优于RLHF 摘要 尽管 大规模无监督语言模型(LMs) 能够学习广泛的世界知识和一些推理技能,但由于其训练过程完全无监督,因此 很难实现对其行为的精确控制 。 当前, 为了获得这种可控性 ,已有方法会收集人类对不同模型生成质量的相对评价标签,并 通过结合人类反馈的强化学习(RLHF)来微调无监督LM ,以符合这些偏好。 然而,RLHF是一个复杂且往往不稳定的过程 ,首先需要构建一个反映人类偏好的奖励模型,然后使用强化学习来微调大型无监督LM,以最大化这一估计奖励,同时避免偏离原始模型太远。 在本文中, 我们提出了一种新的RLHF奖励模型参数化方法 ,该方法能够以封闭形式提取出相应的最优策略,从而使我们仅通过简单的分类损失就能解决标准的RLHF问题。 我们称这一算法为“直接偏好优化” ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览