文章预览
近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。 CCI 3.0下载地址 Flopsera: http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3 ModelScope: https://www.modelscope.cn/datasets/BAAI/CCI3-Data Datahub: https://data.baai.ac.cn/details/BAAI-CCI3 1 规模扩大,来源广泛 CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个
………………………………