专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

在深度学习中，是否应该打破正负样本1:1的迷信思想？

PaperWeekly · 公众号 · 科研 · 2024-09-24 13:03

主要观点总结

本文主要讨论了深度学习中样本不均衡的问题，阐述了正负样本比例并不需要严格的1:1，类别不平衡的比例只是表象，如何帮助模型对每个类（尤其是少数类）都学习到合理的表示才是问题的本质。文章还讨论了其他处理类别不平衡的方法，如重采样技术、类别重加权、难例挖掘等。

关键观点总结

关键观点1: 正负样本比例并非必须1:1，类别不平衡的比例只是表象。

文章指出，在实际训练中，正负样本的比例并不需要是1:1，因为类别不平衡的比例一直只是表象，问题的本质在于如何帮助模型对每个类别都学习到合理的表示。

关键观点2: 处理类别不平衡的多种方法。

除了重采样改变正负样本比例，还有类别重加权、难例挖掘、margin-based loss、meta-learning自动学习加权/采样策略、特殊模型架构、改变训练过程/策略和后验概率校正等方法。

关键观点3: 投稿通道和稿酬。

作者鼓励大家投稿分享优质内容，并提供了投稿通道和稿酬说明。

文章预览

©PaperWeekly 原创 · 作者 | 刘芷宁学校 | 伊利诺伊大学香槟分校研究方向 | 不平衡学习、可信机器学习在深度学习中，样本不均衡普遍被认为是数据集中不同类别的样本数量不等。特别地，当训练集和测试集的类别分布不匹配时，采用处理样本不均衡的策略显得尤为重要。然而，当训练集和测试集分布匹配，但是正负样本比例仍然是悬殊的，这种情况下是否有必要再引入处理不平衡样本的策略？例如，在自然科学领域，如预测药物与靶点结合（即正负样本）的场景中，实际情况往往是正负样本本身不均衡的。在这种情况下，使用过采样等技术人为使训练集中的正负样本比例达到 1:1 是否合理？笔者做过相当长一段时间的不平衡/长尾问题，上述内容对两个问题答案的假设一对一错。 Q：是否应该打破正负样本 1:1 的迷信思想？ A：是的，类别不平 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博