文章预览
↑ 点击 蓝字 关注极市平台 作者丨刘芷宁 伊利诺伊大学香槟分校 来源丨PaperWeekly 编辑丨极市平台 极市导读 正负样本的比例并不是唯一决定任务难度的因素。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 在深度学习中,样本不均衡普遍被认为是数据集中不同类别的样本数量不等。特别地,当训练集和测试集的类别分布不匹配时,采用处理样本不均衡的策略显得尤为重要。 然而,当训练集和测试集分布匹配,但是正负样本比例仍然是悬殊的,这种情况下是否有必要再引入处理不平衡样本的策略?例如,在自然科学领域,如预测药物与靶点结合(即正负样本)的场景中,实际情况往往是正负样本本身不均衡的。在这种情况下, 使用过采样等技术人为使训练集中的正负样本比例达到 1:1 是否合理? 笔者做过相当长一段时间的不平衡/长尾
………………………………