专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入

新智元  · 公众号  · AI  · 2024-08-15 12:38
    

主要观点总结

文章讨论了学术论文数据被用于训练AI模型的现象,引发了一系列关于版权、数据使用及公平性的问题。文章指出,学术出版商已经向科技公司授权访问自家的论文数据,用来训练AI模型。这种现象引发了关于版权和利益分配的争议,因为论文作者往往没有从数据售卖中获得任何收益。文章还介绍了LLM模型在学术信息上的训练情况,以及证明论文是否被用于训练AI模型的困难性。此外,文章还提到了多模态数据在学术领域的应用,以及一个基于arXiv论文构建的多模态数据集,该数据集在自然场景图像和抽象图像的理解上都取得了不错的效果。

关键观点总结

关键观点1: 学术出版商授权科技公司访问论文数据用于AI模型训练,引发版权争议。

许多学术出版商已经向科技公司授权访问自家的论文数据,用于训练AI模型。这引发了一系列关于版权、数据使用和利益分配的问题,因为论文作者往往没有从数据售卖中获得任何收益。

关键观点2: LLM模型在学术信息上的训练情况。

LLM模型可以在海量数据上进行训练,这些数据通常是从互联网上抓取的。学术信息,如学术论文,是其中价值最高的数据之一。因为学术论文篇幅长、信息密度高,对LLM模型的训练非常有价值。然而,使用受版权保护的文本进行训练引发了版权争议。

关键观点3: 证明论文是否被用于训练AI模型的困难性。

目前很难证明自己的论文是否被用于训练AI模型。虽然有一些尝试使用论文文本中的特定句子来提示模型的方法,但并不能保证有效。另一种方法是进行成员推理攻击,但这也存在争议。因此,即使作者想证明其论文被用于模型训练也非常困难。

关键观点4: 多模态数据在学术领域的应用及基于arXiv论文构建的多模态数据集的重要性。

多模态数据在学术领域的应用非常重要。最近有一个基于arXiv论文构建的多模态数据集,它包含了大量的图文对,对于提高VLM模型的数学推理能力有显著效果。该数据集的构建利用了arXiv论文库中大量的论文数据。


文章预览

   新智元报道   编辑:编辑部 【新智元导读】 Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗? 全球数据告急,怎么办? 论文来凑! 最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了…… 据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。 一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。 这合理吗? 更可气的是,自己的论文还被出版商拿来牟利了。 根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。 而6月 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览