专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

机器学习初学者  · 公众号  ·  · 2024-08-21 12:00

文章预览

该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学,通讯作者为李玺教授(IET Fellow,国家杰青)。李玺教授团队近年来在国际权威期刊(如 TPAMI、IJCV 等)和国际顶级学术会议(ICCV、CVPR、ECCV 等)上发表 180 余篇 CV/AIGC 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。 作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。 目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度,缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览