专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

LD-DPO:基于DPO的长度脱敏偏好优化算法

AINLP  · 公众号  ·  · 2024-11-08 17:28

文章预览

论文题目 :Length Desensitization in Direct Preference Optimization 论文地址 :https://arxiv.org/abs/2409.06411 1 引言 大语言模型(Large Language Model, LLM)在自然语言处理(Natural Language Processing, NLP)领域已取得显著成就,不仅能够生成与人类相似的文本,还能理解复杂的上下文关系,并完成多样化的下游语言任务。为了确保模型行为符合人类的价值观及偏好,通过人类反馈进行的学习是至关重要的,它有助于提升模型的实用性、诚实性及安全性。直接偏好优化(Direct Preference Optimization, DPO)作为一种常用的偏好学习策略,与传统基于人类反馈的强化学习算法(Reinforcement Learning from Human Feedback,RLHF)不同,前者通过采用隐式奖励机制替代在线奖励模型(Reward Modeling, RM),从而简化训练过程并增强训练稳定性。 然而,经由一系列实证研究揭示,DPO方法在优化过程中倾向 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览