注册登录

专栏名称: 晓飞的算法工程笔记

work-life balance.

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

房间内的粉色大象 · “八段锦天才”被封杀：大部分学八段锦的人，这 ... · 昨天

房间内的粉色大象 · “八段锦天才”被封杀：大部分学八段锦的人，这 ... · 昨天

時間的玩家TimeIsArt · 每日临在 | 2024.11.20 · 昨天

练瑜伽 · 41岁蒋欣的瓜，比叶珂的瓜还大. · 2 天前

今天看啥 › 专栏 › 晓飞的算法工程笔记

ECCV'24 | SPiT：超像素驱动的非规则ViT标记化，实现更真实的图像理解

晓飞的算法工程笔记 · 公众号 · · 2024-09-05 10:24

文章预览

Vision Transformer ( ViT ) 架构传统上采用基于网格的方法进行标记化，而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略，该策略将标记化和特征提取解耦，与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入，与基于图像块的标记化和随机分区作为基准进行了对比。展示了在提升归因的真实性方面的显著改进，在零样本无监督密集预测任务中提供了像素级的粒度，同时在分类任务中保持了预测性能。来源：晓飞的算法工程笔记公众号，转载请注明出处论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers 论文地址：https://arxiv.org/abs/2408.07680 论文代码：https://github.com/dsb-ifi/SPiT Introduction 在卷积架构之后， Vision Transformers ( ViTs ) 已成为视觉任务的焦点。在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

房间内的粉色大象 · “八段锦天才”被封杀：大部分学八段锦的人，这辈子都没接触过正宗功法！

昨天

房间内的粉色大象 · “八段锦天才”被封杀：大部分学八段锦的人，这辈子都没接触过正宗功法！

昨天

時間的玩家TimeIsArt · 每日临在 | 2024.11.20

昨天

练瑜伽 · 41岁蒋欣的瓜，比叶珂的瓜还大.

2 天前

沧州市中心医院医疗集团 · 【健康科普小课堂】什么是无痛分娩？

3 月前

懒猫的丰收日 · 发车！不要一次性打光所有子弹

3 月前

亮见数字城市 · 什么是虚拟电厂？

3 月前

dotNET跨平台 · 分别用 WPF / UnoPlatform / WinUI 3 重现<英雄联盟游戏客户端>

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号