专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

超越传统知识蒸馏,RLD方法在模型训练中的优势与实证分析 !

arXiv每日学术速递  · 公众号  ·  · 2024-09-02 17:17

文章预览

最近的研究越来越集中在知识蒸馏领域,因为 logit 蒸馏具有简单性、有效性和模型压缩的多样性。在本文中,作者提出了改进型 logit 蒸馏(RLD),以解决现有 logit 蒸馏方法的局限性。 作者的方法是由观察到即使高性能的教师模型也会做出错误的预测而引起的,这种冲突使得标准蒸馏损失与交叉熵损失之间产生了矛盾,进而可能破坏学生模型的学习目标的一致性。 之前使用标签来实证修正教师预测可能削弱了类相关的稳定性。 相比之下,作者的 RLD 方法使用标记信息动态地改进教师 logit。这样,作者的方法可以有效地消除教师中的误导信息,同时保留关键的类相关性,从而提高蒸馏知识的价值和效率。 在 CIFAR-100 和 ImageNet 上的实验结果表明,它优于现有方法。 代码提供在 https://github.com/zju-SWJ/RLD。 1 Introduction 知识蒸馏 [12]利用预训练的高性能老 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览