专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型偏好对齐-DPO

AINLP  · 公众号  ·  · 2024-05-30 10:37
    

文章预览

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】 【点击左下角阅读原文可跳转知乎阅读】 要对齐大模型偏好并不容易,从预训练的数据内容、模型的结构到SFT数据配比甚至数据格式等都会影响最终结果。 按ChatGPT的技术路线,用SFT+RLHF PPO强化学习确实可以获得一定的提升,但是PPO比较复杂,训练过程不稳定,对微调后的模型、PPO的超参、reward模型的质量等都很敏感,且数据收集和训练的成本都较高,跑通大规模PPO有一定的成本门槛,因此PPO并没有被很广泛地应用。 而DPO,Direct Preference Optimization,就是PPO的一个简化替代方案。DPO不需要训练reward模型,把PPO的两阶段训练变成一阶段训练,让模型可以直接从偏好数据里学习。 DPO公式有点多,但是并不算太复杂,一步一步理解即可。 1.对齐 大模型在预训练中学到很多知识和技能,但是并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览