专栏名称: 数据要素社
数聚要素前瞻,启观市场未来!共同推动数据生态建设,助力数据要素产业蓬勃发展!
今天看啥  ›  专栏  ›  数据要素社

Nature发文:AI数据不够,论文来“凑”?

数据要素社  · 公众号  · 科技自媒体  · 2024-08-17 23:59
    

主要观点总结

本文报道了多家学术出版商向科技公司出售研究论文使用权以训练AI模型的现象,引发了部分研究人员的不满。文章提到了不同的解决方案,包括合成数据和公共数据的开放共享等。

关键观点总结

关键观点1: 学术出版商向科技公司出售研究论文使用权

多家学术出版商,如泰勒-弗朗西斯和Wiley,已经与微软等科技公司签署协议,允许其使用学术论文数据来训练AI模型。这些交易在很多情况下并未征求作者的意见,引发了部分研究人员的不满。

关键观点2: 大语言模型使用中的权益保护问题

当前,学术论文作者在面对出版商出售其版权作品时几乎无权干涉,对于公开发表的文章也没有现成机制来确认其内容是否被用作AI训练数据。保护创作者权益的问题在学术界和版权界引起了广泛的讨论。

关键观点3: AI数据需求的迫切性与训练数据的困境

随着AI技术的快速发展,对训练数据的需求日益旺盛。科技巨头纷纷购买学术出版商的论文数据以应对这一需求。一些公司已经开始使用合成数据和公共数据的开放共享来应对训练数据不足的问题。

关键观点4: 合成数据与公共数据开放共享的前景与挑战

虽然合成数据和公共数据的开放共享被认为是解决训练数据不足问题的有效途径,但这些方法是否可行仍存在争议。一些技术和机制上的问题需要在实践中得到解决。


文章预览

8月14日 Nature官网发布文章称 多家学术出版商正在向科技公司 出售研究论文的使用权 用于训练AI模型 这些交易在很多情况下 并未征求作者的意见 引发了部分研究人员的强烈不满 被“出卖”的论文 Nature称 英国学术出版商 泰勒-弗朗西斯(Taylor & Francis) 已经和微软签署了一项 价值1000万美元的协议 允许微软获取它的数据 来改进AI系统 6月 有消息称 美国出版商Wiley 允许某家公司使用其内容训练模型 从而赚取了2300万美元 Nature称 这些论文涵盖了 自然科学、社会科学等多个领域 成为了AI模型训练的重要语料 在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。 图源:新华社 Nature文章认为 当前学术论文作者 在面对出版商出售其版权作品时 几乎无权干涉 对于公开发表的文章 也没有现成机制来确认这些内容 是否被用作AI训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览