专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Nature曝惊人内幕：论文被天价卖出喂AI！出版商狂赚上亿，作者0收入

新智元 · 公众号 · AI · 2024-08-15 12:38

主要观点总结

文章讨论了学术论文数据被用于训练AI模型的现象，引发了一系列关于版权、数据使用及公平性的问题。文章指出，学术出版商已经向科技公司授权访问自家的论文数据，用来训练AI模型。这种现象引发了关于版权和利益分配的争议，因为论文作者往往没有从数据售卖中获得任何收益。文章还介绍了LLM模型在学术信息上的训练情况，以及证明论文是否被用于训练AI模型的困难性。此外，文章还提到了多模态数据在学术领域的应用，以及一个基于arXiv论文构建的多模态数据集，该数据集在自然场景图像和抽象图像的理解上都取得了不错的效果。

关键观点总结

关键观点1: 学术出版商授权科技公司访问论文数据用于AI模型训练，引发版权争议。

许多学术出版商已经向科技公司授权访问自家的论文数据，用于训练AI模型。这引发了一系列关于版权、数据使用和利益分配的问题，因为论文作者往往没有从数据售卖中获得任何收益。

关键观点2: LLM模型在学术信息上的训练情况。

LLM模型可以在海量数据上进行训练，这些数据通常是从互联网上抓取的。学术信息，如学术论文，是其中价值最高的数据之一。因为学术论文篇幅长、信息密度高，对LLM模型的训练非常有价值。然而，使用受版权保护的文本进行训练引发了版权争议。

关键观点3: 证明论文是否被用于训练AI模型的困难性。

目前很难证明自己的论文是否被用于训练AI模型。虽然有一些尝试使用论文文本中的特定句子来提示模型的方法，但并不能保证有效。另一种方法是进行成员推理攻击，但这也存在争议。因此，即使作者想证明其论文被用于模型训练也非常困难。

关键观点4: 多模态数据在学术领域的应用及基于arXiv论文构建的多模态数据集的重要性。

多模态数据在学术领域的应用非常重要。最近有一个基于arXiv论文构建的多模态数据集，它包含了大量的图文对，对于提高VLM模型的数学推理能力有显著效果。该数据集的构建利用了arXiv论文库中大量的论文数据。

文章预览

新智元报道编辑：编辑部【新智元导读】 Nature的一篇文章透露：你发过的paper，很可能已经被拿去训练模型了！有的出版商靠卖数据，已经狂赚2300万美元。然而辛辛苦苦码论文的作者们，却拿不到一分钱，这合理吗？全球数据告急，怎么办？论文来凑！最近，Nature的一篇文章向我们揭露了这样一个事实：连科研论文，都被薅去训AI了…… 据悉，很多学术出版商，已经向科技公司授权访问自家的论文，用来训练AI模型。一篇论文从酝酿idea到成稿，包含了多少作者日日夜夜的心血，如今很可能在不知情的情况下，就成为训AI的数据。这合理吗？更可气的是，自己的论文还被出版商拿来牟利了。根据Nature报告，上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议，允许微软获取它的数据，来改进AI系统。而6月 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博