文章预览
大连理工大学的研究人员提出了一种基于 Wasserstein 距离的知识蒸馏方法,克服了传统 KL 散度在 Logit 和 Feature 知识迁移中的局限性,在图像分类和目标检测任务上表现更好。 自 Hinton 等人的开创性工作以来,基于 Kullback-Leibler 散度(KL-Div)的知识蒸馏一直占主导地位。 然而,KL-Div 仅比较教师和学生在相应类别上的概率,缺乏跨类别比较的机制,应用于中间层蒸馏时存在问题,其无法处理不重叠的分布且无法感知底层流形的几何结构。 为了解决这些问题,大连理工大学的研究人员提出了一种基于 Wasserstein 距离(WD)的知识蒸馏方法。所提出方法在图像分类和目标检测任务上均取得了当前最好的性能,论文已被 NeurIPS 2024 接受为 Poster。 论文标题: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation 论文地址: https://arxiv.org/abs/2412.08139 项
………………………………