文章预览
数据集蒸馏旨在从大型数据集中合成每类( IPC )少量图像,以在最小性能损失的情况下近似完整数据集训练。尽管在非常小的 IPC 范围内有效,但随着 IPC 增加,许多蒸馏方法变得不太有效甚至性能不如随机样本选择。论文对各种 IPC 范围下的最先进的基于轨迹匹配的蒸馏方法进行了研究,发现这些方法在增加 IPC 的情况下很难将更难样本的复杂、罕见特征纳入合成数据集中,导致了容易和难的测试样本之间持续存在的覆盖差距。受到这些观察的启发,论文提出了 SelMatch ,一种能够有效随 IPC 扩展的新型蒸馏方法。 SelMatch 使用基于选择的初始化和通过轨迹匹配进行部分更新来管理合成数据集,以适应针对 IPC 范围定制的期望难度级别。在对 CIFAR-10 / 100 和 TinyImageNet 的测试中, SelMatch 在 5% 到 30% 的子集比率上始终优于主流的仅选择和仅蒸馏方法。 来
………………………………