文章预览
论文题目 :Length Desensitization in Direct Preference Optimization 论文地址 :https://arxiv.org/abs/2409.06411 1 引言 大语言模型(Large Language Model, LLM)在自然语言处理(Natural Language Processing, NLP)领域已取得显著成就,不仅能够生成与人类相似的文本,还能理解复杂的上下文关系,并完成多样化的下游语言任务。为了确保模型行为符合人类的价值观及偏好,通过人类反馈进行的学习是至关重要的,它有助于提升模型的实用性、诚实性及安全性。直接偏好优化(Direct Preference Optimization, DPO)作为一种常用的偏好学习策略,与传统基于人类反馈的强化学习算法(Reinforcement Learning from Human Feedback,RLHF)不同,前者通过采用隐式奖励机制替代在线奖励模型(Reward Modeling, RM),从而简化训练过程并增强训练稳定性。 然而,经由一系列实证研究揭示,DPO方法在优化过程中倾向
………………………………