专栏名称: 云上锦天城

锦天城律师事务所总部设在上海，是一家提供全方位法律服务的，全国领先的中国律师事务所。已在（北京、深圳、杭州、苏州、南京、成都、重庆、太原、青岛、厦门、天津、济南、合肥、郑州、福州、南昌、西安、广州、长春、武汉）及中国香港和英国伦敦开设分所。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

研究 | 生成式人工智能企业合规及法律尽职调查要点（2）：数据/语料和生成内容安全篇

云上锦天城 · 公众号 · · 2024-08-02 16:36

文章预览

作者：肖海龙张克江上一篇从总体上概览了生成式人工智能的主要风险和监管体系，主要阐述了生成式人工智能企业的业务资质要求和对算法、模型的监管要求，本篇具体阐述有关数据/语料和生成内容安全方面的合规要求。五、有关训练数据/语料的合规要求生成式人工智能是靠海量的语料、数据“喂”出来的，数据是影响人工智能技术创新最核心的要素之一，训练数据集的规模和质量直接影响了生成式人工智能的学习能力和泛化能力。例如，文本到图像生成模型Stable Diffusion使用了非营利组织LAION收集的三个大型数据集进行训练，包括58.5亿个图像－文本对。自然语言处理模型GPT-3则是由从45TB原始数据中过滤的570GB数据训练的，包括网站抓取数据集（Common Crawl）、网页文本数据集（Web Text）、图书语料库和英语维基百科（Wikipedia），共设置了1,750亿 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博