文章预览
转载自: Imagination Tech 编辑:陈萍萍的公主@一点人工一点智能 在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研究处理异常值、缺失值、编码、特征缩放和特征提取的各种技术。 异常值 异常值是数据集中与其他观测值显著不同的数据点。它们可能是由测量误差、罕见事件或仅仅是数据自然变化的一部分引起的。识别和处理异常值是至关重要的,因为它们会扭曲统计分析并对模型性能产生负面影响。 1.1 异常值 检测 有几种方法可以检测异常值: 1)视觉方法:箱形图、散点图、直方图 2 ) 统计方法: Z-score:Z-score > 3或 < -3的点通常被认为是异常值。 四分位间距(IQR):低于Q1-1.5 * IQR或高于Q3 +
………………………………