文章预览
技术专栏 本篇将介绍 llama3模型训练的数据质量控制方法 1、 训练数据 清洗 安全性过滤 :对训练数据进行筛选,排除包含个人信息、有害内容和成人内容的文本。 文本清洗 :使用HTML解析器提取文本、代码和数学公式,同时去除markdown标签,保留HTML中的alt标签。 文本去重 : URL去重:保留每个网页的最新版本URL。 Document-level去重:使用全局MinHash算法判定并去除重复文档。 Line-level去重:根据每30M文档中出现超过6次的行进行判定和去重。 启发式去重 :通过n-gram覆盖比检测重复内容,使用定义的“脏词”过滤成人内容,通过token分布的KL距离检测异常符号。 基于模型的低质过滤 :使用多种模型评估文档质量,如Llama2-chat和DistilledRobera。 代码和推理数据: 专门定制 HTML parser 从网络文本中抽取出数学推导、理工科里的推理内容以及与文本交织在
………………………………