专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
目录
相关文章推荐
今天看啥  ›  专栏  ›  瓦力算法学研所

大模型面经之llama3训练如何保证数据质量

瓦力算法学研所  · 公众号  ·  · 2024-10-09 19:33

文章预览

技术专栏 本篇将介绍 llama3模型训练的数据质量控制方法   1、 训练数据 清洗   安全性过滤 :对训练数据进行筛选,排除包含个人信息、有害内容和成人内容的文本。 文本清洗 :使用HTML解析器提取文本、代码和数学公式,同时去除markdown标签,保留HTML中的alt标签。 文本去重 : URL去重:保留每个网页的最新版本URL。 Document-level去重:使用全局MinHash算法判定并去除重复文档。 Line-level去重:根据每30M文档中出现超过6次的行进行判定和去重。 启发式去重 :通过n-gram覆盖比检测重复内容,使用定义的“脏词”过滤成人内容,通过token分布的KL距离检测异常符号。 基于模型的低质过滤 :使用多种模型评估文档质量,如Llama2-chat和DistilledRobera。 代码和推理数据: 专门定制 HTML parser 从网络文本中抽取出数学推导、理工科里的推理内容以及与文本交织在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章