“训练数据抄袭”：DeepSeek 动了谁的奶酪？

赛博禅心 · 公众号 · · 2024-12-30 18:50

主要观点总结

文章讨论了关于DeepSeek-V3模型被指控存在“训练数据抄袭”的问题，并从技术和伦理角度进行了分析。文章指出，大型语言模型的训练过程是对海量文本数据的学习和模仿，如果训练数据中混入了特定模型的输出内容，新模型可能会表现出与该模型类似的特征。此外，文章还探讨了AI内容的版权确定和使用问题，现有版权法难以完全适用于AI生成的内容，创作者和AI公司之间的奶酪争夺战已经开始，但关于AI版权的问题尚未形成基本共识。

关键观点总结

关键观点1: DeepSeek-V3被指控存在“训练数据抄袭”问题

文章讨论了DeepSeek-V3模型产生的“幻觉”现象，即自称“GPT-4”，甚至所讲的笑话都与GPT-4高度雷同，这被一些读者视为训练数据抄袭的证据。

关键观点2: 大型语言模型的训练过程和对语料的学习

文章解释了大型语言模型（LLM）的训练过程本质上是学习和模仿海量文本数据，如果训练数据中混入了特定模型的输出内容，新模型可能会表现出与该模型的说话方式和思维模式相似的特征。

关键观点3: AI内容的版权确定和使用问题

文章指出现有版权法难以完全适用于AI生成的内容，其独创性在法律上存争议，传统内容创造者的利益也会受到影响。同时，介绍了Scribd联合创始人TripAdler的新项目“CreatedbyHumans”，该项目尝试解决AI内容的版权问题，但如何扩展到其他类型的内容仍是一个需要解决的问题。

关键观点4: 创作者和AI公司之间的“奶酪争夺战”

文章描述了AI对语料的使用正处于无人监管的状态，内容作者缺乏话语权和议价能力，只能眼看着自己的利益被蚕食。同时指出关于AI版权的问题尚未形成基本共识，关于AI的“学习”与人类的“借鉴”之间的边界、语料的所有权和使用权以及AI生成内容的版权等问题都需要进一步探讨。

文章预览

在上一篇的评论区里，大家发生了争吵：《 DeepSeek-V3 是怎么训练的｜深度拆解》有的读者指出： DeepSeek V3 有“训练数据抄袭”的问题。证据呢？这模型有时候会产生奇怪的幻觉，比如自称“GPT-4”，甚至连所讲的笑话都与 GPT-4 高度雷同。上网冲浪了会儿，发现这事儿的讨论还不小。　　于是，就有了这篇：我会从技术和伦理的角度，来谈谈这个事儿。　大模型的“奇怪幻觉” 从技术角度来说，这种 “幻觉”现象，很可能是训练数据受到了污染。　大型语言模型 (LLM) 的训练过程，本质上是对海量文本数据（即“语料”）进行学习和模仿。这些语料通常来源于互联网的公开信息，涵盖新闻、文章、博客、论坛等各种文本。模型通过学习这些语料中的语言模式、逻辑结构和知识信息，进而获得生成类似文本的能力。　《中学生能看懂：10 分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博