专栏名称: 未尽研究
技术是一种看见自然的方式
目录
相关文章推荐
今日悉尼  ·  刚刚!悉尼Surry ... ·  2 天前  
今日悉尼  ·  刚刚!悉尼Surry ... ·  2 天前  
今天看啥  ›  专栏  ›  未尽研究

苹果、英伟达们使用内容创作者的语料,如何穿透其合法性

未尽研究  · 公众号  ·  · 2024-07-17 12:43

文章预览

训练数据来源,在大模型公司那里,是一个挺讳莫如深的问题。一方面,他们担心数据的来源方,如内容创作者或拥有方,向他们主张权利,另外一方面,他们要保持神秘。如果用户知道了他们的训练数据来源,就有可能会从生成的内容中发现记忆性和模仿性的内容。 当OpenAI的文生视频模型Sora火得一塌糊涂时,媒体记者曾问其CTO穆拉蒂有关 训练数据来源的问题 ,她顾左右而言他了。Sora最早推出Demo,但迟迟无法产品化,除了算力的原因(高峰用量时可能需要72万张H100)之外,最重要的原因,可能是他们没有清理好训练数据来源使用的合法性问题。 今年发生了几个知名的案例,如 《纽约时报》起诉OpenAI ;美国唱片业协会向两家AI音乐公司Suno和Udio发起诉讼,这两家都在其训练语料来源方面含糊其辞。 最近媒体又爆出苹果、英伟达、Anthropic、Salesfor ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览