今天看啥  ›  专栏  ›  NewBeeNLP

大模型SFT的局限性

NewBeeNLP  · 公众号  ·  · 2024-09-05 11:05

文章预览

作者 | ybq  https://zhuanlan.zhihu.com/p/717275921 今天看到了一个问题“为什么要做 rlhf,sft 不够吗?” 很多大佬都分享了自己做 rlhf 的一些经验和心得。收获蛮多的同时,我留意到,大佬们都在说 rlhf 有多重要,怎么优化 rlhf,rlhf 能带来多大的提升,却并没有直面这个问题:为什么非做 rlhf 不可呢?或者说,用 reward_model 清洗和制造 sft 数据能不能取代 rlhf 呢? 下面我分享一些自己的看法,希望能和大家一起探讨。 sft 无法提供负反馈 sft 的训练过程,是一个让模型学习条件概率的过程,Prob( E | ABCD )。这也就是说,模型在训练和学习过程中,只知道 next_token 出什么是正确的,而不知道 next_token 出什么是错误的。无论你的 sft 语料如何构造,都无济于事,模型不知道“什么 token 是不能生成的”。 这也间接解释了另外一个现象:为什么 sft 的数据多样性很 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览