今天看啥  ›  专栏  ›  晓飞的算法工程笔记

ECCV'24 | SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解

晓飞的算法工程笔记  · 公众号  ·  · 2024-09-05 10:24

文章预览

Vision Transformer ( ViT ) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像块的标记化和随机分区作为基准进行了对比。展示了在提升归因的真实性方面的显著改进,在零样本无监督密集预测任务中提供了像素级的粒度,同时在分类任务中保持了预测性能。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers 论文地址:https://arxiv.org/abs/2408.07680 论文代码:https://github.com/dsb-ifi/SPiT Introduction   在卷积架构之后, Vision Transformers ( ViTs ) 已成为视觉任务的焦点。在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览