中科院又一创举 SecViT，多视觉Backbone ，图像分类、目标检测、图像分割性能起飞！

江大白 · 公众号 · · 2024-05-30 08:00

文章预览

以下文章来源于微信公众号：AI视界引擎作者：AI引链接：https://mp.weixin.qq.com/s/t-anLRpzrS3X62n7bM-64A 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读视觉 Transformer （ViT）虽然性能强悍，但其全局注意力机制的二次复杂度带来了相当大的计算负担。本文作者提出了一种名为SEC的高效、直接的方式根据 Token 的全局语义相关性对 Token 进行聚类的方法，并在图像分类、目标检测等领域全面实验验证了SecViT的有效性。视觉 Transformer （ViT）因其卓越的关系建模能力而受到关注。然而，其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力，减少计算需求。然而，这种策略忽略了 Token 中的语义信息，可能将语义相关的 Token 分散到不同的组中，从而损害了用于建模 Token 间依赖的自注意力的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博