专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

SFT、RLHF、DPO、IFT —— LLM 微调的进化之路

AINLP  · 公众号  ·  · 2024-08-06 10:10
    

文章预览

作者:边路腰刀,清华大学 电子系博士在读 声明:本文只做分享,版权归原作者,青稞AI整理 原文:https://zhuanlan.zhihu.com/p/710652762 TL;DR • SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐; • SFT 只通过 LLMs 生成的下一个单词进行估计,而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计,显然后者的估计会更准确; • 虽然 RLHF 和 DPO 取得比 SFT 好的结果,但代价是高昂的数据构造和计算资源开销; • IFT 通过引入时序残差连接,仅使用多推理一步的开销,就可以融合 SFT、RLHF 和 DPO 的训练目标,摆脱对偏好数据和参考模型的依赖,保证训练目标与真实生成目标更加相近; • IFT 建模并优化了当前生成单词对所有未来生成结果的影响,增强了模型的因果性和事实性; 引言 随着 ChatGPT 等强大模型的发布,大语言模型(Large Language Model ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览