苹果、英伟达们使用内容创作者的语料，如何穿透其合法性

未尽研究 · 公众号 · · 2024-07-17 12:43

文章预览

训练数据来源，在大模型公司那里，是一个挺讳莫如深的问题。一方面，他们担心数据的来源方，如内容创作者或拥有方，向他们主张权利，另外一方面，他们要保持神秘。如果用户知道了他们的训练数据来源，就有可能会从生成的内容中发现记忆性和模仿性的内容。当OpenAI的文生视频模型Sora火得一塌糊涂时，媒体记者曾问其CTO穆拉蒂有关训练数据来源的问题，她顾左右而言他了。Sora最早推出Demo，但迟迟无法产品化，除了算力的原因（高峰用量时可能需要72万张H100）之外，最重要的原因，可能是他们没有清理好训练数据来源使用的合法性问题。今年发生了几个知名的案例，如《纽约时报》起诉OpenAI ；美国唱片业协会向两家AI音乐公司Suno和Udio发起诉讼，这两家都在其训练语料来源方面含糊其辞。最近媒体又爆出苹果、英伟达、Anthropic、Salesfor ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博