专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

新智元 · 公众号 · AI · 2024-06-09 12:36

文章预览

新智元报道编辑：Mindy 【新智元导读】从大规模网络爬取、精细过滤到去重技术，通过FineWeb的技术报告探索如何打造高质量数据集，为大型语言模型（LLM）预训练提供更优质的性能。大型语言模型（LLMs）的性能在很大程度上取决于它的预训练数据集的质量和大小。然而，像Llama 3和Mixtral这样最先进的LLMs的预训练数据集并不公开；关于它们是如何创建的，我们知之甚少。近日，Hugging Face上的一个团队发布了FineWeb数据集，这是一个用于LLM预训练的新型大规模（15万亿个tokens，44TB磁盘空间）数据集。同时，他们还通过技术报告详细介绍了该数据集的加工决策过程：FineWeb源自96个CommonCrawl快照，它是如何通过缜密的去重和过滤策略，比其他开放预训练数据集产生了表现更好的LLM的。创建数据集的准备工作开始创建数据集的第一步，需要考虑的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 价格还有下探空间//@老师木:DeepSeek 每台机器输出吞吐-20250301152448

2 天前

河南日报 · AI神器再升级！这次有点猛→

2 天前

河南日报 · AI神器再升级！这次有点猛→

2 天前

量子位 · DeepSeek突袭公布成本利润率：545%

2 天前

黄建同学 · 必须收藏！DeepSeek的发展历程和对本地区可能产生的影响-20250301075207

2 天前

全球风口 · 段永平入手英伟达？AI的下一个风口在SaaS

2 天前

全球风口 · 段永平入手英伟达？AI的下一个风口在SaaS

2 天前

集思录 · 1月7日投资提示：普利制药，普利转债复牌

1 月前