社区供稿 | 智源研究院发布中文高质量数据集 CCI3.0-HQ 技术报告: 全面解析数据集，助力基础模型中文能力提升

Hugging Face · 公众号 · · 2024-11-27 10:30

文章预览

摘要近年来，自然语言基础模型（LLM）取得了显著进展，训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前英文开源语料的质量过滤已经从基础的规则方法转向了模型驱动的方法。然而，中文开源语料相对稀缺，同时针对中文网络数据进行质量分类提升的研究较少，导致数据质量尚未达到理想水平，进而影响模型中文性能。为解决以上问题，进一步缓解中文预训练语料规模和质量上的差距，2024年9月20日，智源研究院发布并开源了中文预训练数据集CCI3.0和高质量子集CCI3.0-HQ。2024年10月25日，智源研究院发布中文高质量预训练数据集CCI3.0-HQ技术报告，全面解析数据集的构建过程。我们的主要贡献总结如下：我们发布CCI3.0-HQ，这是一个突破性的500GB中文预训练数据集，采用了先进的混合质量过滤方法，显著提升了数据完整性。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博