长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
今天看啥  ›  专栏  ›  机器学习算法与Python实战

大模型微调,进化之路—— SFT、RLHF、DPO、IFT

机器学习算法与Python实战  · 公众号  ·  · 2024-08-12 13:10

文章预览

作者:边路腰刀,清华大学 电子系博士在读 原文:https://zhuanlan.zhihu.com/p/710652762 TL;DR • SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐; • SFT 只通过 LLMs 生成的下一个单词进行估计,而 RLHF 和 DPO 通过 LLMs 生成的完整句子进行估计,显然后者的估计会更准确; • 虽然 RLHF 和 DPO 取得比 SFT 好的结果,但代价是高昂的数据构造和计算资源开销; • IFT 通过引入时序残差连接,仅使用多推理一步的开销,就可以融合 SFT、RLHF 和 DPO 的训练目标,摆脱对偏好数据和参考模型的依赖,保证训练目标与真实生成目标更加相近; • IFT 建模并优化了当前生成单词对所有未来生成结果的影响,增强了模型的因果性和事实性; 引言 随着 ChatGPT 等强大模型的发布,大语言模型(Large Language Models,LLMs)的浪潮席卷而来,并逐渐走进千家万户。L ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览