专栏名称: AIWalker

关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营，原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

中科院自动化所提出M2MKD | 基于模块粒度的蒸馏，m2mKD让模型在ImageNet上再涨3.5%

AIWalker · 公众号 · · 2024-08-28 22:40

文章预览

模块化神经架构因其强大的泛化能力和对新领域的高效样本适应能力而越来越受到关注。然而，特别是在早期阶段，训练模块化模型面临挑战，这是由于它们固有的稀疏连接性导致的优化困难。利用单体模型的知识，如使用知识蒸馏技术，可能会促进模块化模型的训练，并使它们能够整合来自多个在不同来源预训练的模型的知识。然而，传统的知识蒸馏方法并不是为模块化模型量身定做的，当直接应用时可能会失败，这是由于独特的架构和涉及的庞大参数数量。受到这些挑战的启发，作者提出了一种通用的模块到模块知识蒸馏（m2mKD）方法，用于在模块间传递知识。m2mKD涉及从预训练的单体模型中分离出的教师模块，以及模块化模型的学生模块。m2mKD分别将这些模块与共享元模型结合，并鼓励学生模块模仿教师模块的行为。作者评估了m2mKD在两种不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博