今天看啥  ›  专栏  ›  NLP工作站

瞎聊: SFT模型为何不如Pretrain模型

NLP工作站  · 公众号  ·  · 2024-11-29 09:40
    

文章预览

今天给大家带来好友知乎@ybq的一篇文章,聊聊SFT模型为何不如Pretrain模型。 知乎:https://zhuanlan.zhihu.com/p/9649266595 叠甲叠甲 :本文纯瞎聊,单纯分享一下我和 知乎@真中合欢  ,以及大哥大姐,在茶余饭后拌嘴瞎聊的一些内容。本文不包含任何理论推导、实验证明,大家当个乐子读读就好了。 我们聊的问题是:在知识掌握层面上,sft 后的模型为什么不如 pretrain 模型效果好?或者说,为什么 sft 后的模型在知识掌握上会有幻觉? 首先,我们从统计学的角度出发:sft 数据和 pretrain 数据的分布差异太大,这种分布的偏离导致模型产生幻觉。围绕这个观点有很多解决幻觉的工作:在 sft 阶段引入 pretrain 数据,在 pretrain 阶段引入 sft 数据,有篇论文叫 self-distillation fine-tuning,让 pretrain 模型重写 sft 数据来拉近数据分布 …… 怎么说呢,分布差异这个观点肯 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览