主要观点总结
该文章介绍了数据清洗的定义、意义、流程以及如何进行数据清洗。文章还提到了风控建模中数据清洗的重要性,并推荐了一个课程《量化风控模型机会创造营3.0》,该课程涵盖了风控建模的各个方面,包括特征工程、二分类模型主流算法、全场景评分卡模型体系应用等,并提供了建模案例实操和学员反馈。
关键观点总结
关键观点1: 数据清洗的定义和意义
数据清洗是发现并纠正数据文件中的可识别错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。在建模工作中,数据清洗是保证数据质量、实现好的风控的关键一步。
关键观点2: 数据清洗的流程
数据清洗流程包括缺失值判断与处理、异常值检查、常变量/同值化处理以及分类变量降基处理等。流程看似简单,但需要根据具体应用和数据的不同,给出相应的数据清理方法。
关键观点3: 推荐课程《量化风控模型机会实战营3.0》
该课程涵盖了风控建模的各个方面,包括特征工程、二分类模型主流算法、全场景评分卡模型体系应用等。课程特色包括特征工程最全解析、二分类模型主流算法全流程精讲、全场景评分卡模型体系应用以及细化场景建模案例实操等。适合想要系统学习风控建模的人群。
文章预览
0 1 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 0 2 数据清洗有什么意义? 对于建模工作而言,工作的职责就是做到精确建模,内容包括样本准备、模型设计、数据准备、特征工程、模型的建立与评估、模型监控等工作。 要想实现好的风控,前提是保证数据的质量,而数据就是较为关键的一步。但是模型的输入是受限的,如果数据有缺陷、没做好清洗工作,那模型就不可能精准。因此,当建模得不到一个准确结果时,第一时间要怀疑的不是用错模型,而是用错了数据。 0 3 如何进行数据清洗? 数据清洗工作包括用户唯一性检查,Missing值检查,异常值检查,Zero-rate等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI、平均值/方差,IV等。 具
………………………………