主要观点总结
中国网络空间安全协会人工智能安全治理专业委员会工作年会发布中文互联网基础语料2.0。该语料库是在国家互联网应急中心的指导下,由协会联合企业和科研单位共建共享,规模达到120GB,包含3800万条数据。用户可以登录相关网站下载。负责人表示这是人工智能发展的基础资源,未来将加强建设,为产业提供支撑和保障。
关键观点总结
关键观点1: 中文互联网基础语料2.0的发布
该语料库是在中央网信办的指导下,基于中文互联网基础语料1.0的基础上,汇聚高质量可信数据,经过严格的数据加工处理措施形成,规模达到120GB,包含3800万条数据。
关键观点2: 语料库的共建共享机制
中国网络空间安全协会建立了语料共建共享机制,依托专委会的优势,联合企业、高校和科研单位,共同构建这一语料库。
关键观点3: 语料库的使用
用户可以通过登录中国网络空间安全协会网站,经过注册、认证等程序,下载相关语料。这一资源平台将为人工智能技术创新和产业发展提供有力支撑和保障。
关键观点4: 发布仪式的参与者
发布仪式上有来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织的代表共计1s参加。
文章预览
1月9日,在北京召开的中国网络空间安全协会人工智能安全治理专业委员会工作年会上,中文互联网基础语料2.0正式向社会发布。 在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,在前期发布中文互联网基础语料1.0的基础上,持续发挥企业、高校和科研单位协同优势,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料2.0,规模120GB,数据3800万条。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。 网安协会人工智能安全治理专委会负责人表示,数据是发展人工智能的基础关键资源,
………………………………