浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

机器学习初学者 · 公众号 · · 2024-08-21 12:00

文章预览

该论文作者均来自于浙江大学李玺教授团队，论文第一作者为博士生苏伟同学，通讯作者为李玺教授（IET Fellow，国家杰青）。李玺教授团队近年来在国际权威期刊（如 TPAMI、IJCV 等）和国际顶级学术会议（ICCV、CVPR、ECCV 等）上发表 180 余篇 CV/AIGC 相关的研究工作，和国内外知名高校、科研机构广泛开展合作。作为基础的视觉语言任务，指代表达理解（referring expression comprehension, REC）根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成：视觉编码器、文本编码器和跨模态交互，分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度，缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器，如 ResNet、DarkNet、Swin Transformer 或 ViT 等 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#大牌羽绒服集体闭麦暂无公开声明#】#多个羽绒服商铺因检查暂时-20241127215000

2 天前

新浪科技 · 【#优酷再被指吃相难看#：#白夜破晓每集8个广告#，会员也必看！-20241127091103

2 天前

新浪科技 · #曝比亚迪要求供应商降价#【#比亚迪回应要求供应商降低10%报价-20241127093431

2 天前

Marine Sedimentology · 龚承林等：深水源—汇系统对多尺度气候变化的过程响应与反馈机制

6 天前

Marine Sedimentology · 龚承林等：深水源—汇系统对多尺度气候变化的过程响应与反馈机制

6 天前

科思创在中国 · 浦江创新论坛 | 科思创分享生物基材料最新进展

2 月前