【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

数据派THU · 公众号 · 大数据 · 2024-11-29 17:35

文章预览

来源：专知本文约1000字，建议阅读 5 分钟我们通过提出一种简单的方法—— 注意力迁移（attention transfer）。传统观点认为，通过预训练视觉Transformer（ViT）可以学习有用的表示，从而提升下游任务的性能。但这是真的吗？我们对这一问题进行了研究，发现预训练过程中学到的特征和表示并不是必不可少的。令人惊讶的是，仅利用预训练中的注意力模式（即指导信息在不同token之间的流动方式），就足以让模型从零开始学习高质量特征，并在下游任务中取得可比的性能。我们通过提出一种简单的方法—— 注意力迁移（attention transfer），验证了这一点。在这种方法中，仅从预训练的教师ViT中将注意力模式迁移到学生模型，迁移方式可以是直接复制或蒸馏注意力图。由于注意力迁移允许学生模型自行学习特征，将其与经过微调的教师模型进行集成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博