专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

CVPR 2024|LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重

极市平台  · 公众号  · 科技创业 科技自媒体  · 2024-08-21 22:00
    

主要观点总结

该文章介绍了Less-Attention Vision Transformer(LA-ViT)架构的细节和主要贡献。LA-ViT通过引入少注意力机制来修改标准ViT的基本架构,旨在解决注意力饱和问题并降低计算复杂度。文章详细描述了LA-ViT的架构设计和关键组件,包括少注意力层、损失函数设计以及复杂度分析。实验结果表明,LA-ViT在多个视觉任务中表现出优异的性能,并降低了计算复杂度和内存消耗。

关键观点总结

关键观点1: LA-ViT架构的引入及主要目标

LA-ViT是一种修改后的Vision Transformer架构,旨在解决注意力饱和问题并降低计算复杂度。它通过引入少注意力机制来修改标准ViT的架构,以捕捉长范围的关系。

关键观点2: LA-ViT的关键组件

LA-ViT的架构由原始注意力(VA)层和少注意力(LA)层组成。在每个阶段,专门计算传统的自注意力,并将注意力分数存储在几个初始的VA层中。在后续的层中,通过利用先前计算的注意力矩阵高效地生成注意力分数。此外,还集成了残差连接和一种新的损失函数来保持注意力矩阵的对角性。

关键观点3: LA-ViT的性能和优势

LA-ViT在各种基准数据集上进行了实验,并与现有最先进的ViT变种进行了比较。实验结果表明,LA-ViT在解决注意力饱和并在视觉识别任务中取得优越性能方面非常有效。此外,LA-ViT在计算复杂度和内存消耗方面也具有类似或更低的特点。

关键观点4: LA-ViT的复杂度分析

LA-ViT的复杂度分析表明,与传统的ViT相比,该架构在计算复杂度和K-Q-V转换方面具有更低的复杂度。这是由于它利用了线性变换来避免计算内积的需要,并只在Less-Attention中计算查询嵌入。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨VincentLee 来源丨晓飞的算法工程笔记 编辑丨极市平台 极市导读   Less-Attention Vision Transformer利用了在多头自注意力(MHSA)块中计算的依赖关系,通过重复使用先前MSA块的注意力来绕过注意力计算,还额外增加了一个简单的保持对角性的损失函数,旨在促进注意力矩阵在表示标记之间关系方面的预期行为。该架构你能有效地捕捉了跨标记的关联,超越了基线的性能,同时在参数数量和每秒浮点运算操作(FLOPs)方面保持了计算效率。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 论文地址 : https://arxiv.org/abs/2406.00427 Introduction 近年来,计算机视觉经历了快速的增长和发展,主要得益于深度学习的进步以及大规模数据集的可获得性。在杰出的深度学习技术中,卷积神经网络( Convolutional Neural Networks , CNNs )被 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章