文章预览
最近的研究越来越集中在知识蒸馏领域,因为 logit 蒸馏具有简单性、有效性和模型压缩的多样性。在本文中,作者提出了改进型 logit 蒸馏(RLD),以解决现有 logit 蒸馏方法的局限性。 作者的方法是由观察到即使高性能的教师模型也会做出错误的预测而引起的,这种冲突使得标准蒸馏损失与交叉熵损失之间产生了矛盾,进而可能破坏学生模型的学习目标的一致性。 之前使用标签来实证修正教师预测可能削弱了类相关的稳定性。 相比之下,作者的 RLD 方法使用标记信息动态地改进教师 logit。这样,作者的方法可以有效地消除教师中的误导信息,同时保留关键的类相关性,从而提高蒸馏知识的价值和效率。 在 CIFAR-100 和 ImageNet 上的实验结果表明,它优于现有方法。 代码提供在 https://github.com/zju-SWJ/RLD。 1 Introduction 知识蒸馏 [12]利用预训练的高性能老
………………………………