主要观点总结
本文探讨了全球数据危机下,学术出版商向科技公司授权使用学术论文数据训练AI模型的现象。文章指出,很多学术出版商已经与科技公司签署协议,允许其获取论文数据用于AI训练,引发了版权和使用的争议。同时,大型语言模型(LLM)需要大量数据进行训练,学术论文因其长篇幅和高信息密度成为有价值的数据来源之一。但这也引发了关于版权、商业用途和学术研究的复杂问题。
文章还介绍了数据集的重要性和争议,包括LLM训练中使用多模态数据的趋势,以及利用arXiv论文库构建多模态数据集的研究。此外,文章还讨论了证明论文被LLM使用的困难,以及版权争议和商业用途的模糊界限。最后,文章提供了一些解决方案和研究方向,包括利用版权陷阱等方法来识别论文是否被使用,以及构建更加公平的数据使用体系。
关键观点总结
关键观点1: 学术出版商向科技公司授权论文数据引发争议
学术出版商授权科技公司使用论文数据训练AI模型,引发版权和使用问题。各大公司开始真金白银地出价购买高质量数据集。
关键观点2: LLM训练需要海量数据,学术论文成为重要来源
大型语言模型(LLM)需要在海量数据上进行训练,学术论文因其长篇幅和高信息密度成为有价值的数据来源之一。但在训练中可能存在版权问题。
关键观点3: 证明论文被LLM使用存在技术难题
目前存在技术难题来识别论文是否被用于训练AI模型。计算机科学家介绍了一些方法如使用版权陷阱来识别,但仍存在困难。
关键观点4: 多模态数据在LLM训练中的应用
利用arXiv论文库中的多模态数据构建数据集的趋势,以及这种趋势对LLM训练的影响。包括构建ArXivCap和ArXivQA数据集的研究案例。
关键观点5: 版权争议和商业用途的模糊界限
在出版商看来,如果开发者在训练中使用了受版权保护的文本而没有获得许可,则可能构成侵权。但另一方认为大模型并没有抄袭,只是从训练数据中获取信息。存在如何划清商用和学术研究用途的复杂问题。
文章预览
全球数据告急,怎么办? 论文来凑! 最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了…… 据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。 一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。 这合理吗? 更可气的是,自己的论文还被出版商拿来牟利了。 根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。 而6月的一次投资者更新显示,美国出版商Wiley允许某家公司使用其内容训模型后,直接一举豪赚2300万美元! 但这个钱,跟广大论文的作者是半毛钱关系都没有的。 而且,华盛顿大学AI研究员Lucy Lu Wang还表示,即使不在可开放获取的
………………………………