今天看啥  ›  专栏  ›  李rumor

使用合成数据训练会有什么问题?

李rumor  · 公众号  ·  · 2024-12-10 09:18
    

文章预览

🆘 一句话总结:合成数据的分布和真实数据有较大差别,比较单一,容易引起pattern overfitting,使得训练后模型输出分布变化 🎉动机:现有的研究主要证明了合成数据的有效性,缺乏它对与模型遵循能力的影响研究,作者观测到合成数据pretrain的模型有较大遵循能力的下降 =\x26amp;gt; 提出了一种unlearning方法,缓解合成数据带来的问题 📊 分析实验结论: 1. 合成数据和真实数据的分布不同: - 图2: 对合成数据和真实数据进行编码+可视化,发现两种数据的分布存在差距 - 图3: 统计了token分布,发现在合成数据中question、answer、summary这类token频繁出现,会导致重复pattern 2. 使用合成数据训练会导致pattern overfitting - 虽然基座模型提升了,但走到SFT阶段,发现加了2%合成数据训的模型在SFT后效果会变差 - 图4: 计算训练后模型在开源混合数据上的ppl ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览