专栏名称: 谈数据
聚焦数据治理,数字化转型,数据中台等领域专业知识总结和实战分享,做你身边最有价值的数据号!
今天看啥  ›  专栏  ›  谈数据

数据治理:数据清洗原理、流程、工具及实战

谈数据  · 公众号  ·  · 2024-09-03 07:30

文章预览

来源:数据学堂 全文共  3087  个字,建议阅读  10  分钟 导读: 大数据时代,必须经过清洗、分析、建模、可视化才能体现其价值,然后众多数据中总是存在很多“脏数据”,也就是不完整、不规范、不准确的数据,数据清洗就是指将“脏数据”洗掉,包括检查数据一致性,处理无效值和缺失值,从而提高数据质量! 01 数据清洗概述 数据清洗(data cleaning)可以有多重表述方式,一般认为,数据清洗的含义就是检测和取出数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据和知识背景下的 白噪声 。 (1)一致性检查 根据每个变量的合理取值范围和相互关系,检查数据是否规范,是否超出正常范围,逻辑上不符或相互矛盾的数据。比如年龄、体重、考试成绩出现了负数,都是超出了正常的范围。SPAA、SAS、Excel等软件都能根据定义的取 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览