文章预览
近年来,构建强大人工智能系统的数据来源逐渐枯竭。麻省理工学院领导的研究组织Data Provenance Initiative的一项新研究表明,许多用于训练人工智能模型的最重要的网络资源在过去一年中限制了数据使用。这种限制通过设置robots.txt文件阻止自动爬虫抓取数据。 研究发现,常用数据集中的高质量数据有25%受到了限制,C4数据集中多达45%的数据受服务条款限制。这一趋势对人工智能公司、研究人员和学者造成了影响,因为他们依赖公共数据集进行训练。 随着生成式人工智能的崛起,出版商和在线平台对数据使用的控制越来越严格,包括设置付费墙和更改服务条款。像Reddit和StackOverflow等网站开始向人工智能公司收费获取数据,甚至采取法律行动限制数据使用。虽然一些人工智能公司通过达成协议继续访问内容,但广泛的数据限制仍对需要高质量数据的
………………………………