专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集

新智元  · 公众号  · AI  · 2024-06-09 12:36
    

文章预览

   新智元报道   编辑:Mindy 【新智元导读】 从大规模网络爬取、精细过滤到去重技术,通过FineWeb的技术报告探索如何打造高质量数据集,为大型语言模型(LLM)预训练提供更优质的性能。 大型语言模型(LLMs)的性能在很大程度上取决于它的预训练数据集的质量和大小。 然而,像Llama 3和Mixtral这样最先进的LLMs的预训练数据集并不公开;关于它们是如何创建的,我们知之甚少。 近日,Hugging Face上的一个团队发布了FineWeb数据集,这是一个用于LLM预训练的新型大规模(15万亿个tokens,44TB磁盘空间)数据集。 同时,他们还通过技术报告详细介绍了该数据集的加工决策过程:FineWeb源自96个CommonCrawl快照,它是如何通过缜密的去重和过滤策略,比其他开放预训练数据集产生了表现更好的LLM的。 创建数据集的准备工作 开始创建数据集的第一步,需要考虑的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览