专栏名称: 数据STUDIO
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
今天看啥  ›  专栏  ›  数据STUDIO

数据不平衡?千万不要随意处理!

数据STUDIO  · 公众号  ·  · 2024-08-12 11:30
    

文章预览

训练数据中正负样本不平衡是非常常见的问题,典型的如: 贷款问题中,违约和不违约的样本; 医疗诊断中,在一些疾病检测中,患病样本(正样本)通常远少于健康样本(负样本)。 网络安全中,入侵检测系统中,异常访问或攻击(正样本)相较于正常流量(负样本)是极其不平衡的。 在碰到上面的问题中,我们第一时间想到的处理方案往往是: 重采样方法: 包括过采样少数类(如SMOTE算法)或欠采样多数类。 调整分类器的阈值: 改变决策阈值以更好地捕捉少数类样本。 使用加权损失函数: 给少数类分配更高的权重,以平衡类别不平衡对损失的影响。 ... 使用上面的处理方案时,我们一定需要慎重,考虑清楚下面的问题,否则这么做是灾难级别的。 慎重思考下面问题 线下训练/线上实盘偏差 设计好自己线下的评估指标和 验证模式 (验证模式一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览