主要观点总结
文章讨论了学术论文数据被用于训练AI模型的现象,引发了一系列关于版权、数据使用及公平性的问题。文章指出,学术出版商已经向科技公司授权访问自家的论文数据,用来训练AI模型。这种现象引发了关于版权和利益分配的争议,因为论文作者往往没有从数据售卖中获得任何收益。文章还介绍了LLM模型在学术信息上的训练情况,以及证明论文是否被用于训练AI模型的困难性。此外,文章还提到了多模态数据在学术领域的应用,以及一个基于arXiv论文构建的多模态数据集,该数据集在自然场景图像和抽象图像的理解上都取得了不错的效果。
关键观点总结
关键观点1: 学术出版商授权科技公司访问论文数据用于AI模型训练,引发版权争议。
许多学术出版商已经向科技公司授权访问自家的论文数据,用于训练AI模型。这引发了一系列关于版权、数据使用和利益分配的问题,因为论文作者往往没有从数据售卖中获得任何收益。
关键观点2: LLM模型在学术信息上的训练情况。
LLM模型可以在海量数据上进行训练,这些数据通常是从互联网上抓取的。学术信息,如学术论文,是其中价值最高的数据之一。因为学术论文篇幅长、信息密度高,对LLM模型的训练非常有价值。然而,使用受版权保护的文本进行训练引发了版权争议。
关键观点3: 证明论文是否被用于训练AI模型的困难性。
目前很难证明自己的论文是否被用于训练AI模型。虽然有一些尝试使用论文文本中的特定句子来提示模型的方法,但并不能保证有效。另一种方法是进行成员推理攻击,但这也存在争议。因此,即使作者想证明其论文被用于模型训练也非常困难。
关键观点4: 多模态数据在学术领域的应用及基于arXiv论文构建的多模态数据集的重要性。
多模态数据在学术领域的应用非常重要。最近有一个基于arXiv论文构建的多模态数据集,它包含了大量的图文对,对于提高VLM模型的数学推理能力有显著效果。该数据集的构建利用了arXiv论文库中大量的论文数据。
文章预览
新智元报道 编辑:编辑部 【新智元导读】 Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗? 全球数据告急,怎么办? 论文来凑! 最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了…… 据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。 一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。 这合理吗? 更可气的是,自己的论文还被出版商拿来牟利了。 根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。 而6月
………………………………