过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

数据派THU · 公众号 · 大数据 · 2024-11-08 17:00

文章预览

来源：DeepHub IMBA 本文约4300字，建议阅读 8分钟本文详细探讨了在不平衡数据集上进行分类任务时常用的过采样和欠采样技术。在现实场景中，收集一个每个类别样本数量完全相同的数据集是十分困难的。实际数据往往是不平衡的，这对于分类模型的训练可能会造成问题。当模型在这样一个不平衡数据集上训练时，由于某个类别的样本数量远多于其他类别，模型通常会更擅长预测样本量较大的类别，而在预测小类别时表现不佳。为了缓解这一问题，我们可以使用过采样(oversampling)和欠采样(undersampling)等策略——为样本数量较少的类别生成更多样本，或者从样本数量较多的类别中删除一部分样本。虽然已有多种过采样和欠采样方法(如SMOTE、ADASYN、Tomek Links等)，但鲜有资料直观地比较它们的原理和效果差异。因此本文将使用一个简单的二维数据集， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · 【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器

昨天

软件定义世界（SDX） · 红杉资本2025年AI三大展望：大模型厂商各显神通；杀手级应用AI搜索；AI支出变稳

3 天前

天池大数据科研平台 · 打破文本边界：如何进行多模态RAG评估

4 天前

Libertango Official · 【6.17-6.23】Libertango露台放映片单公布！港片一夏！

6 月前

电脑报 · 知名社交平台大规模封号上热搜，被网友称为“最好用的搜索引擎”

4 天前