瞎聊: SFT模型为何不如Pretrain模型

NLP工作站 · 公众号 · · 2024-11-29 09:40

文章预览

今天给大家带来好友知乎@ybq的一篇文章，聊聊SFT模型为何不如Pretrain模型。知乎：https://zhuanlan.zhihu.com/p/9649266595 叠甲叠甲：本文纯瞎聊，单纯分享一下我和知乎@真中合欢，以及大哥大姐，在茶余饭后拌嘴瞎聊的一些内容。本文不包含任何理论推导、实验证明，大家当个乐子读读就好了。我们聊的问题是：在知识掌握层面上，sft 后的模型为什么不如 pretrain 模型效果好？或者说，为什么 sft 后的模型在知识掌握上会有幻觉？首先，我们从统计学的角度出发：sft 数据和 pretrain 数据的分布差异太大，这种分布的偏离导致模型产生幻觉。围绕这个观点有很多解决幻觉的工作：在 sft 阶段引入 pretrain 数据，在 pretrain 阶段引入 sft 数据，有篇论文叫 self-distillation fine-tuning，让 pretrain 模型重写 sft 数据来拉近数据分布 …… 怎么说呢，分布差异这个观点肯 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博