专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

500G!BAAI发布高质量预训练中文语料库CCI3.0-HQ

AINLP  · 公众号  ·  · 2024-10-25 17:38
    

文章预览

LLM虽然有scaling law鼓吹大家不断要更多变更大,但行业内已经慢慢取得共识,量级小些但质量更高的数据,训出来的效果可能要好过 量级大但质量一般的数据。 北京人工智能研究院(BAAI)发布了500GB高质量的中文语料库CCI3.0-HQ,它是中文互联网语料库3.0(CCI3.0)的子集,通过两阶段混合过滤,显著提高了数据质量。为了评估有效性,在各种数据集上从头开始训练了一个0.5B参数模型,使用100B个token,在零样本设置下,在10个基准测试中取得了比CCI3.0、SkyPile和WanjuanV1更优越的性能。同时开源SOTA数据质量过滤模型CCI3-HQ-Classifier,让大家可以更好的洗数据。 数据清洗流程 如图1所示,包括两个主要阶段:基础处理和高质量处理。 原始数据包括多种中文语料库,包括新闻、社交媒体和博客,从而增强了数据集的覆盖范围和代表性。在完成基础处理步骤后, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览