AI发展：训练数据即将遭遇瓶颈

科普中国 · 公众号 · 科学 · 2025-01-04 10:30

文章预览

得益于神经网络规模的扩大以及海量数据的训练，人工智能（ AI ）在过去10年间突飞猛进。“做大做强”的策略，在构建大型语言模型（ LLM ）上取得了显著成果，ChatGPT就是一个典型的例子。然而，《自然》《麻省理工科技评论》等多家杂志网站指出， AI扩展正逼近极限。一方面，AI“吞噬”着越来越多的能源；另一方面，滋养无数模型成长的传统数据集，正被LLM开发人员过度开垦。 AI几乎读取了互联网上的所有内容，但仍渴望获得更多数据。为此，开发人员必须寻找变通之道。图片来源：twistedsifter.com 训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测，到2028年左右，用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说， AI可能会在大约4年内耗尽训练数据。与此同时，数据所有者（如报纸出版商）开始打击对其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环球科学 · 还记得小时候的迷宫、水管屏保吗？它们现在哪里去了？

昨天

科学网 · pick你的最爱！科学网2024年度十佳博文由你决定

2 天前

果壳 · 那个被大厂抄袭的小鸡词典，败诉了，也解散了

3 天前

宇宙解码 · 科学家发布惊人理论：宇宙或许是一个巨大的神经网络，真是活的？

3 天前

科学世界 · 方程：学生时代大“BOSS”是如何产生的

4 天前

古典音乐 · 第一届马拉加市国际钢琴比赛总决赛

6 月前

澎湃美数课 · 美数课招实习生啦，北上广三地可选！

4 月前