文章预览
模块化神经架构因其强大的泛化能力和对新领域的高效样本适应能力而越来越受到关注。然而,特别是在早期阶段,训练模块化模型面临挑战,这是由于它们固有的稀疏连接性导致的优化困难。利用单体模型的知识,如使用知识蒸馏技术,可能会促进模块化模型的训练,并使它们能够整合来自多个在不同来源预训练的模型的知识。然而,传统的知识蒸馏方法并不是为模块化模型量身定做的,当直接应用时可能会失败,这是由于独特的架构和涉及的庞大参数数量。 受到这些挑战的启发,作者提出了一种通用的模块到模块知识蒸馏(m2mKD)方法,用于在模块间传递知识。m2mKD涉及从预训练的单体模型中分离出的教师模块,以及模块化模型的学生模块。m2mKD分别将这些模块与共享元模型结合,并鼓励学生模块模仿教师模块的行为。作者评估了m2mKD在两种不
………………………………