文章预览
训练数据来源,在大模型公司那里,是一个挺讳莫如深的问题。一方面,他们担心数据的来源方,如内容创作者或拥有方,向他们主张权利,另外一方面,他们要保持神秘。如果用户知道了他们的训练数据来源,就有可能会从生成的内容中发现记忆性和模仿性的内容。 当OpenAI的文生视频模型Sora火得一塌糊涂时,媒体记者曾问其CTO穆拉蒂有关 训练数据来源的问题 ,她顾左右而言他了。Sora最早推出Demo,但迟迟无法产品化,除了算力的原因(高峰用量时可能需要72万张H100)之外,最重要的原因,可能是他们没有清理好训练数据来源使用的合法性问题。 今年发生了几个知名的案例,如 《纽约时报》起诉OpenAI ;美国唱片业协会向两家AI音乐公司Suno和Udio发起诉讼,这两家都在其训练语料来源方面含糊其辞。 最近媒体又爆出苹果、英伟达、Anthropic、Salesfor
………………………………