大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手

Dots机构投资者社区 · 公众号 · · 2024-10-14 08:15

文章预览

本文转自微信公众号“新智元”，作者：新智元。编辑：乔杨桃子【导读】 1%合成数据，就能让模型瞬间崩溃！来自Meta、NYU等机构团队证实，「微量」合成数据便让LLM弱不可堪。甚至，参数规模越大，模型崩溃越严重。 1%的合成数据，就让LLM完全崩溃了？ 7月，登上Nature封面一篇论文证实，用合成数据训练模型就相当于「近亲繁殖」，9次迭代后就会让模型原地崩溃。论文地址：https://www.nature.com/articles/s41586-024-07566-y 然而，许多大佬都不同意这篇文章的方法和结论。比如，Scale AI的CEO Alexandr Wang就很看好合成数据的前景，英伟达发布的开源模型Nemotron-4 340B 甚至使用了98%的合成数据。最近，Meta、纽约大学、UCLA机构发表的最新论文，再一次动摇了这些大佬们的结论。论文地址：https://arxiv.org/abs/2410.04840 他们发现，即使合成数据仅仅占到总数据集 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博