文章预览
大家好,今天给大家分享一份大模型预训练开源数据集集合,具体如下: 【001】Skywork/SkyPile-150B 【002】togethercomputer/RedPajama-Data-1T 【003】togethercomputer/RedPajama-V2 【004】tiiuae/falcon-refinedweb 【005】WanJuan2.0(WanJuan-CC) 【006】EleutherAI/the_pile_deduplicated 【007】ROOTS 数据集 【008】MNBVC超大规模中文语料集 【009】WuDaoCorporaText 【010】CLUECorpus2020 【011】wikimedia/wikipedia 【012】legacy-datasets/wikipedia 【013】wikipedia-cn-20230720-filtered 【014】allenai/c4 【015】cerebras/SlimPajama-627B 【016】wikipedia-2023-11-embed-multilingual-v3 【017】BAAI/CCI2-Data 【018】CASIA-LM/ChineseWebText 【019】allenai/dolma 【020】TigerResearch/pretrain_zh 【021】维基百科(wiki2019zh) 【022】新闻语料json版(news2016zh) 【023】百科问答(baike2018qa) 【024】社区问答json版(webtext2019zh) 【025】翻译语料(translation2019zh) 【026】FreedomIntelligence/huatuo_encyclopedi
………………………………