文章预览
Vision Transformer ( ViT ) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像块的标记化和随机分区作为基准进行了对比。展示了在提升归因的真实性方面的显著改进,在零样本无监督密集预测任务中提供了像素级的粒度,同时在分类任务中保持了预测性能。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers 论文地址:https://arxiv.org/abs/2408.07680 论文代码:https://github.com/dsb-ifi/SPiT Introduction 在卷积架构之后, Vision Transformers ( ViTs ) 已成为视觉任务的焦点。在
………………………………