专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

中科院又一创举 SecViT | 多功能视觉 Backbone 网络，图像分类、目标检测、实例分割和语义分割都性能起飞！

AI算法与图像处理 · 公众号 · · 2024-06-01 22:14

文章预览

前言视觉 Transformer （ViT）因其卓越的关系建模能力而受到关注。然而，其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力，减少计算需求。然而，这种策略忽略了 Token 中的语义信息，可能将语义相关的 Token 分散到不同的组中，从而损害了用于建模 Token 间依赖的自注意力的有效性。基于这些洞察，作者引入了一种快速且均衡的聚类方法，名为语义均衡聚类（SEC）。 SEC以一种高效、直接的方式根据 Token 的全局语义相关性对 Token 进行聚类。与需要多次迭代的传统聚类方法不同，作者的方法在一次传递中完成 Token 聚类。此外，SEC调节每个簇中的 Token 数量，确保在当前计算平台上进行有效的并行处理，而无需进一步优化。来源：AI视界引擎仅用于学术分享，若侵权请联系删除代码将可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博