专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

机器之心  · 公众号  · AI  · 2024-06-04 12:50
    

文章预览

机器之心报道 作者:蛋酱、小舟 众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。 最近,AI 大牛 Andrej Karpathy 推荐了一项名为 FineWeb-Edu 的工作。 这项工作将原始 15 万亿个 FineWeb token,经 Llama 3 70B 评判,过滤为 1.3 万亿个高质量(教科级)token。 事实证明,LLM 从教育内容中学习会更好更快。部分原因是普通的互联网爬取文章的价值不是很高,并且会分散训练的注意力,包含太多不相关的信息。 互联网上的网页是如此随机和糟糕,这些奇怪的数据转储、广告垃圾邮件、数兆字节的股票行情更新等等,里面混杂着「钻石」(重要内容),那么挑战就是把「钻石」挑出来。 预训练数据集对于微调可能非常有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览