专栏名称: 云上锦天城
锦天城律师事务所总部设在上海,是一家提供全方位法律服务的,全国领先的中国律师事务所。已在(北京、深圳、杭州、苏州、南京、成都、重庆、太原、青岛、厦门、天津、济南、合肥、郑州、福州、南昌、西安、广州、长春、武汉)及中国香港和英国伦敦开设分所。
目录
相关文章推荐
今天看啥  ›  专栏  ›  云上锦天城

研究 | 生成式人工智能企业合规及法律尽职调查要点(2):数据/语料和生成内容安全篇

云上锦天城  · 公众号  ·  · 2024-08-02 16:36

文章预览

作者:肖海龙 张克江 上一篇从总体上概览了生成式人工智能的主要风险和监管体系,主要阐述了生成式人工智能企业的业务资质要求和对算法、模型的监管要求,本篇具体阐述有关数据/语料和生成内容安全方面的合规要求。 五、有关训练数据/语料的合规要求 生成式人工智能是靠海量的语料、数据“喂”出来的,数据是影响人工智能技术创新最核心的要素之一,训练数据集的规模和质量直接影响了生成式人工智能的学习能力和泛化能力。例如,文本到图像生成模型Stable Diffusion使用了非营利组织LAION收集的三个大型数据集进行训练,包括58.5亿个图像-文本对。自然语言处理模型GPT-3则是由从45TB原始数据中过滤的570GB数据训练的,包括网站抓取数据集(Common Crawl)、网页文本数据集(Web Text)、图书语料库和英语维基百科(Wikipedia),共设置了1,750亿 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章