专栏名称: Python技术博文
分享有关Python知识,了解IT界最新技术,让我们一起从菜鸟变成大牛吧!
今天看啥  ›  专栏  ›  Python技术博文

数据分析之缺失值处理(下)

Python技术博文  · 公众号  · Python  · 2019-11-12 08:50

文章预览

承接上文: 数据分析之缺失值处理 缺失值处理   1)删除 删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内); 或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);  2)替换 直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值; 其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降; 3)插补 利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作预测; 其优势在于预测的准确性高;缺点是需要大量的计算,导致缺失值的处理速度大打折扣。 缺失值——替换处理 fillna方法支持对不同变量指定不同替换值 # 构造测试数据集 df = pd.DataFrame({ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览