专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !

集智书童  · 公众号  ·  · 2024-07-20 09:00

文章预览

备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 基于 Transformer 的架构因其卓越的性能已成为各种视觉任务的默认标准模型。随着模型规模的不断扩大,模型蒸馏在各种实际应用中变得尤为重要,尤其是在计算资源受限的设备上。 然而,当前流行的知识蒸馏方法在遇到教师模型和学生模型之间的容量差距较大时,例如10倍的压缩率,其有效性会大打折扣。 在本文中,作者提出了一种名为自动多步蒸馏(AMD)的新方法,用于大规模视觉模型的压缩。特别是,作者的蒸馏过程分为多个步骤进行。最初,教师模型经过蒸馏形成一个中间的教师助手模型,随后该助手模型再进一步蒸馏到学生模型。 作者引入了一种高效且有效的优化框架,来自动识别能够使学生模型性能最大化的最优教师助手。 作者在多个图像分类数据集上进行了广泛的实验 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览