文章预览
本文大体上是重现这篇文章: 最强总结,机器学习中处理不平衡数据集的五种方法!! https://mp.weixin.qq.com/s/-HFlMvW1ctEZp9VQ1YW2og 1 不平衡数据 不平衡数据集是指在分类任务中, 不同类别的样本数量差异显著的数据集 ,通常表现为少数类样本远少于多数类样本。这样的数据集在现实生活中很常见,比如欺诈检测、医疗诊断、故障预测等场景。 不平衡数据的问题 在不平衡的数据集中,多数类别主导着模型的预测,导致少数类别的预测性能较差。 例如,如果 95% 的数据被标记为 0 类,则将所有实例预测为 0 类可获得 95% 的准确率,即使 1 类预测完全不正确。 2 不平衡数据示例 模拟一个两个特征(便于可视化)的信用卡违约数据,包含 10000 个观测,其中 95% 的客户是信用良好( class 0 ),只有 5% 是信用不好( class 1 )。 library ( tidyverse ) n = 10000 set . see
………………………………