专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
今天看啥  ›  专栏  ›  智源社区

活动报名|Meta、纽约大学等新研究,合成数据导致模型崩溃,及解决方案

智源社区  · 公众号  ·  · 2024-10-23 12:00

文章预览

报告主题: 下一代 AI 面临危机:合成数据导致模型崩溃及解决方案 报告日期: 1 0月24日(周四)10:30-11:30 报告要点: 生成式 AI 在文本、图像和代码领域的突破性进展,正在引领我们进入“合成数据时代”: 我们越来越多地使用像 GPT-4 和 Stable Diffusion 这样的大模型生成的数据。 如今,网络上充斥着这些模型生成的合成数据,很多时候已经难以与“真实”数据区分开来。 未来,当我们为新一代基础模型(foundation models)收集训练数据时,合成数据将不可避免地被包含在内。 这些合成数据将如何影响训练过程和scaling laws呢? 我们发现,合成数据会导致模型崩溃(model collapse),破坏scaling laws,进而导致模型性能下降。特别是,少量的合成数据就能引发这种崩溃(strong model collapse)。我们还提出了一些方法,通过验证机制(verification)来避免这种崩溃 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览