专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型偏好对齐-ODPO

AINLP  · 公众号  ·  · 2024-06-01 20:53
    

文章预览

前面对DPO的思路做了整理: 大模型偏好对齐-DPO 。 DPO把RLHF的两阶段训练,变成了一阶段训练,降低了训练成本。而ODPO(DPO with an offset)在DPO的基础上做了一点改进,在几个下游任务的实验中,获得了比DPO更好的效果。 1.背景 直接使用指令微调,是让模型学会处理下游任务的一个快速有效的方法。 但是指令微调的优化目标是maximize the response log-likelihood,这和“生成人类所偏好的高质量内容”的目标之间存在gap,不完全对齐。 这个misalignment部分是因为maximum likelihood的目标无法区分数据里“大错”(比如幻觉)和“小错”(比如标点符号不恰当)。 Training with the maximum likelihood objective makes the model assign nonzero probability mass to all responses in SFT dataset, even those of lower quality. 因此有RLHF的方法来解决这个问题。RL通过人类偏好数据训练一个reward模型,并用reward ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览