专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

中科院又一创举 SecViT | 多功能视觉 Backbone 网络,图像分类、目标检测、实例分割和语义分割都性能起飞!

CV技术指南  · 公众号  ·  · 2024-05-31 13:51
    

文章预览

前言   视觉 Transformer (ViT)因其卓越的关系建模能力而受到关注。然而,其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力,减少计算需求。 然而,这种策略忽略了 Token 中的语义信息,可能将语义相关的 Token 分散到不同的组中,从而损害了用于建模 Token 间依赖的自注意力的有效性。基于这些洞察,作者引入了一种快速且均衡的聚类方法,名为 语义均衡聚类 (SEC) 。 SEC以一种高效、直接的方式根据 Token 的全局语义相关性对 Token 进行聚类。与需要多次迭代的传统聚类方法不同,作者的方法在一次传递中完成 Token 聚类。 此外,SEC调节每个簇中的 Token 数量,确保在当前计算平台上进行有效的并行处理,而无需进一步优化。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览