我们专注于金融和数字经济领域的法律理论与实务研究,聚焦证券银行、资产管理、场外衍生品以及面向数字经济的数字金融、数据合规问题;秉承以专业研究引领带动法律服务、非诉与争议解决相结合的法律服务理念,参与到中国法治社会建设的历史进程中!
今天看啥  ›  专栏  ›  金融与数字经济法律研究

"影子"数据集:NVIDIA大模型预训练中的合规"漏洞"

金融与数字经济法律研究  · 公众号  ·  · 2024-07-14 22:39

文章预览

一篇论文和一个数据集,将人工智能桂冠上的王者——NVIDIA(英伟达)拉入诉讼漩涡之中。  2024年7月3日,美国加利福尼亚州北卡罗莱纳州地区法院公布了三位作家起诉NVIDIA大模型预训练数据集版权案件的最新进展。如日中天的NVIDIA(英伟达)也终于不可避免陷入了集体诉讼之中——原因是NVIDIA的大模型的训练数据集未经授权使用了作家们的书籍进行预训练。  01 威震天案和Pile数据集   NVIDIA是一家多元化的技术公司,成立于1993年,最初专注于计算机图形硬件,后来扩展到其他计算密集型领域,包括用于训练和操作人工智能软件程序的软件和硬件。 2022年9月,NVIDIA发布了威震天系列(NeMoMegatron-GPT20B)大型语言模型(“LLM”),和其它大模型一样,NeMo Megatron的训练方法是通过复制大量的文本作品,然后将这些作品语料库作为训练数据集,输入到大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览