文章预览
该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学,通讯作者为李玺教授(IET Fellow,国家杰青)。李玺教授团队近年来在国际权威期刊(如 TPAMI、IJCV 等)和国际顶级学术会议(ICCV、CVPR、ECCV 等)上发表 180 余篇 CV/AIGC 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。 作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。 目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度,缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等
………………………………