文章预览
报告主题: 下一代 AI 面临危机:合成数据导致模型崩溃及解决方案 报告日期: 1 0月24日(周四)10:30-11:30 报告要点: 生成式 AI 在文本、图像和代码领域的突破性进展,正在引领我们进入“合成数据时代”:我们越来越多地使用像 GPT-4 和 Stable Diffusion 这样的大模型生成的数据。如今,网络上充斥着这些模型生成的合成数据,很多时候已经难以与“真实”数据区分开来。未来,当我们为新一代基础模型(foundation models)收集训练数据时,合成数据将不可避免地被包含在内。这些合成数据将如何影响训练过程和scaling laws呢? 我们发现,合成数据会导致模型崩溃(model collapse),破坏scaling laws,进而导致模型性能下降。特别是,少量的合成数据就能引发这种崩溃(strong model collapse)。我们还提出了一些方法,通过验证机制(verification)来避免这种崩溃,
………………………………