文章预览
作者:肖海龙 张克江 上一篇从总体上概览了生成式人工智能的主要风险和监管体系,主要阐述了生成式人工智能企业的业务资质要求和对算法、模型的监管要求,本篇具体阐述有关数据/语料和生成内容安全方面的合规要求。 五、有关训练数据/语料的合规要求 生成式人工智能是靠海量的语料、数据“喂”出来的,数据是影响人工智能技术创新最核心的要素之一,训练数据集的规模和质量直接影响了生成式人工智能的学习能力和泛化能力。例如,文本到图像生成模型Stable Diffusion使用了非营利组织LAION收集的三个大型数据集进行训练,包括58.5亿个图像-文本对。自然语言处理模型GPT-3则是由从45TB原始数据中过滤的570GB数据训练的,包括网站抓取数据集(Common Crawl)、网页文本数据集(Web Text)、图书语料库和英语维基百科(Wikipedia),共设置了1,750亿
………………………………