专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

中科院又一创举 SecViT,多视觉Backbone ,图像分类、目标检测、图像分割性能起飞!

江大白  · 公众号  ·  · 2024-05-30 08:00
    

文章预览

以下 文 章来源于微信公众号:AI视界引擎 作者:AI引 链接:https://mp.weixin.qq.com/s/t-anLRpzrS3X62n7bM-64A 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 视觉 Transformer (ViT)虽然性能强悍,但其全局注意力机制的二次复杂度带来了相当大的计算负担。本文作者提出了一种名为SEC的高效、直接的方式根据 Token 的全局语义相关性对 Token 进行聚类的方法,并在图像分类、目标检测等领域全面实验验证了SecViT的有效性。 视觉 Transformer (ViT)因其卓越的关系建模能力而受到关注。然而,其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力,减少计算需求。 然而,这种策略忽略了 Token 中的语义信息,可能将语义相关的 Token 分散到不同的组中,从而损害了用于建模 Token 间依赖的自注意力的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览