大模型SFT的局限性

NewBeeNLP · 公众号 · · 2024-09-05 11:05

文章预览

作者 | ybq https://zhuanlan.zhihu.com/p/717275921 今天看到了一个问题“为什么要做 rlhf，sft 不够吗？” 很多大佬都分享了自己做 rlhf 的一些经验和心得。收获蛮多的同时，我留意到，大佬们都在说 rlhf 有多重要，怎么优化 rlhf，rlhf 能带来多大的提升，却并没有直面这个问题：为什么非做 rlhf 不可呢？或者说，用 reward_model 清洗和制造 sft 数据能不能取代 rlhf 呢？下面我分享一些自己的看法，希望能和大家一起探讨。 sft 无法提供负反馈 sft 的训练过程，是一个让模型学习条件概率的过程，Prob( E | ABCD )。这也就是说，模型在训练和学习过程中，只知道 next_token 出什么是正确的，而不知道 next_token 出什么是错误的。无论你的 sft 语料如何构造，都无济于事，模型不知道“什么 token 是不能生成的”。这也间接解释了另外一个现象：为什么 sft 的数据多样性很 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博