主要观点总结
中国网络空间安全协会人工智能安全治理专委会工作年会上,正式发布了中文互联网语料资源平台。该平台提供中文互联网基础语料的展示和下载服务,支持多种标签分类,便于用户下载与使用。目前平台已有27个语料数据集,数据总量约2.7T,主要来源包括中国网络空间安全协会、国家互联网应急中心等单位。未来,平台将依托语料共建共享机制,持续吸纳优质中文互联网语料,开展数据来源合规评估、质量评价、安全检测等服务,促进大模型产业发展。
关键观点总结
关键观点1: 中文互联网语料资源平台的发布
平台由中国网络空间安全协会等协同建设,提供中文互联网基础语料的展示和下载服务。
关键观点2: 平台当前的数据量和来源
目前平台已有27个语料数据集,数据总量约2.7T,主要来源于中国网络空间安全协会、国家互联网应急中心、人民网等单位。
关键观点3: 平台的未来发展计划
平台将依托语料共建共享机制,持续吸纳优质中文互联网语料,并探索开展数据来源合规评估、质量评价、安全检测等服务,以促进大模型产业发展。
文章预览
1月9日,在中国网络空间安全协会人工智能安全治理专委会工作年会上,中文互联网语料资源平台正式面向社会发布。 在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位,共同建设中文互联网语料资源平台,面向社会提供中文互联网基础语料展示下载服务。平台支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。 目前平台共入驻27个语料数据集,数据总量约2.7T,主要分三类:一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。登
………………………………