SFT、RLHF、DPO、IFT —— LLM 微调的进化之路

NewBeeNLP · 公众号 · · 2024-08-07 11:05

文章预览

作者：边路腰刀原文：https://zhuanlan.zhihu.com/p/710652762 TL;DR • SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好，再与人类的偏好进行对齐； • SFT 只通过 LLMs 生成的下一个单词进行估计，而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计，显然后者的估计会更准确； • 虽然 RLHF 和 DPO 取得比 SFT 好的结果，但代价是高昂的数据构造和计算资源开销； • IFT 通过引入时序残差连接，仅使用多推理一步的开销，就可以融合 SFT、RLHF 和 DPO 的训练目标，摆脱对偏好数据和参考模型的依赖，保证训练目标与真实生成目标更加相近； • IFT 建模并优化了当前生成单词对所有未来生成结果的影响，增强了模型的因果性和事实性；引言随着 ChatGPT 等强大模型的发布，大语言模型（Large Language Models，LLMs）的浪潮席卷而来，并逐渐走进千家万户。LLMs 可以协助文字工作者寻找 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

经济参考报 · 重磅！北京、上海取消普通住房和非普通住房标准；中央空管委即将在六个城市开展eVTOL试点；逾70家沪市公司获回购增持专项贷支持

3 天前

数据宝 · 大事件，涉及并购重组，16只潜力股出炉

4 天前

计量经济圈 · 平行趋势不可靠, 范式变了, 需考虑事前趋势可靠性, 稳健性和敏感性检验! 附代码和数据

5 天前

逻辑挖掘社 · 快速交易！

6 天前

逻辑挖掘社 · 快速交易！

6 天前

有限次重复博弈 · 笑出腹肌有限次重复博弈的微博视频 -20241116092730

6 天前

之江全知道 · 杭州要新建一个高教园区，落地国科大的双浦新区是不是最优选？

3 月前