专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

数据派THU  · 公众号  · 大数据  · 2024-11-29 17:35

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们通过提出一种简单的方法—— 注意力迁移(attention transfer)。 传统观点认为,通过预训练视觉Transformer(ViT)可以学习有用的表示,从而提升下游任务的性能。但这是真的吗?我们对这一问题进行了研究,发现预训练过程中学到的特征和表示并不是必不可少的。令人惊讶的是,仅利用预训练中的注意力模式(即指导信息在不同token之间的流动方式),就足以让模型从零开始学习高质量特征,并在下游任务中取得可比的性能。 我们通过提出一种简单的方法—— 注意力迁移(attention transfer) ,验证了这一点。在这种方法中,仅从预训练的教师ViT中将注意力模式迁移到学生模型,迁移方式可以是直接复制或蒸馏注意力图。由于注意力迁移允许学生模型自行学习特征,将其与经过微调的教师模型进行集成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览