专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型面经之llama3训练如何保证数据质量

瓦力算法学研所 · 公众号 · · 2024-10-09 19:33

文章预览

技术专栏本篇将介绍 llama3模型训练的数据质量控制方法 1、训练数据清洗安全性过滤：对训练数据进行筛选，排除包含个人信息、有害内容和成人内容的文本。文本清洗：使用HTML解析器提取文本、代码和数学公式，同时去除markdown标签，保留HTML中的alt标签。文本去重： URL去重：保留每个网页的最新版本URL。 Document-level去重：使用全局MinHash算法判定并去除重复文档。 Line-level去重：根据每30M文档中出现超过6次的行进行判定和去重。启发式去重：通过n-gram覆盖比检测重复内容，使用定义的“脏词”过滤成人内容，通过token分布的KL距离检测异常符号。基于模型的低质过滤：使用多种模型评估文档质量，如Llama2-chat和DistilledRobera。代码和推理数据：专门定制 HTML parser 从网络文本中抽取出数学推导、理工科里的推理内容以及与文本交织在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博