文章预览
摘要 近年来,自然语言基础模型(LLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前英文开源语料的质量过滤已经从基础的规则方法转向了模型驱动的方法。然而,中文开源语料相对稀缺,同时针对中文网络数据进行质量分类提升的研究较少,导致数据质量尚未达到理想水平,进而影响模型中文性能。 为解决以上问题,进一步缓解中文预训练语料规模和质量上的差距,2024年9月20日,智源研究院发布并开源了中文预训练数据集CCI3.0和高质量子集CCI3.0-HQ。2024年10月25日,智源研究院发布中文高质量预训练数据集CCI3.0-HQ技术报告,全面解析数据集的构建过程。 我们的主要贡献总结如下: 我们发布CCI3.0-HQ,这是一个突破性的500GB中文预训练数据集,采用了先进的混合质量过滤方法,显著提升了数据完整性。
………………………………