讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大模型训练的第二步:数据清洗和预处理(1)

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-02 00:26
    

文章预览

大模型训练的第二步,即数据清洗和预处理 是大模型训练的一个复杂且关键的环节,它直接影响了模型的最终性能和效果。 本篇文章将 详细描述数据清洗这个子环节的任务、不同场景的清洗机制、算法选择、人员参与情况。 一、任务: 数据清洗通常可以分为 基础清洗、 结构化清洗、 内容清洗、 高级清洗 几种任务,以确保数据质量和适用性。 基础清洗: 去除重复:删除重复的记录。 格式统一:确保所有数据遵循统一的格式,例如日期和时间格式。 处理缺失值:通过删除、填充或估算缺失值来处理它们。 纠正错误:识别并纠正数据中的明显错误,如拼写错误和数据录入错误。 结构化清洗: 数据转换:将数据从一种格式转换为另一种,例如将文本数据转换为数值数据。 数据规范化:如归一化或标准化数据,以便更好地进行比较或建模。 特征工程 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览