ChatGPT 们能讲人话后，AI 污染互联网将变本加厉

APPSO · 公众号 · app · 2024-09-23 17:00

主要观点总结

文章讨论了生成式AI对语言和数据的影响，以及由此带来的问题。Wordfreq项目因AI文本污染数据而终止，引发对AI数据爬取与反爬取的讨论。研究指出AI生成的数据可能导致模型质量下降，并带来偏见问题。同时，AI生成的垃圾网页污染互联网，影响AI模型的原材料。人类需更加谨慎对待在互联网留下的每一句话。

关键观点总结

关键观点1: 生成式AI污染语言和数据，导致Wordfreq项目终止。

AI的发展导致语言习惯变化，生成式AI让语言变得趋同，导致Wordfreq项目无法准确追踪语言变迁。Wordfreq项目因数据获取困难而终止。

关键观点2: AI爬取与反爬取战争激烈，媒体开始重视数据和版权。

随着模型对高质量数据的需求增长，爬取与反爬取的战争愈发激烈。媒体开始重视数据和版权，采取屏蔽爬虫、收费等措施。

关键观点3: 合成数据可能加剧AI模型质量下降和偏见问题。

虽然合成数据是解决数据耗尽的一种方法，但可能导致模型质量下降和产生偏见。低质量数据充斥互联网，导致模型学习错误和噪声，加剧现实不平等。

关键观点4: AI生成的垃圾网页污染互联网，影响AI训练。

AI生成的垃圾网页充斥互联网，这些网页被用作训练AI模型的原材料，导致模型质量下降。社区环境受AI污染，人类不得不禁用AI。

关键观点5: 人类需更加谨慎对待在互联网留下的每一句话。

互联网上的每一句话都可能成为训练AI模型的原材料，人类需要更加谨慎地表达自己的观点，避免加剧现实不平等和模型质量下降的问题。

文章预览

人类最担心的事情还是发生了。随意在网上翻看几篇新闻，却分不清是否出自 AI 之手；忙里偷闲时打把游戏，也看不懂沉默的队友是人机还是真人。直播间里，明星数字人充耳不闻地吮鸡爪，与卖力吆喝的真人助播形成割裂的场景…… 而据外媒 404 media 报道，一个用于追踪和分析多种语言中词汇趋势的项目——Wordfreq，现在也成了当下这种现象的最新受害者。阳光明媚的地方总有阴影潜伏，显然 Wordfreq 不是第一个受害者，也不会是最后一个受害者。最终为之买单的或许还是人类本身。 GPT 们污染语言，人类要为之买单生成式 AI 污染了数据，我认为没有人掌握关于 2021 年后人类使用语言的可靠信息。这句来自 Wordfreq 项目创建者罗宾·斯皮尔心中的呐喊，透出了几分无奈与愤懑。究其原因，还得从 Wordfreq 的来历谈起。通过分析维基百科、电影和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博