主要观点总结
本文介绍了机器之心AIxiv专栏发布的关于视觉语言任务中的指代表达理解(REC)的研究进展。浙江大学李玺教授团队提出了ScanFormer框架,通过coarse-to-fine的迭代感知方式提高计算效率,并在多个数据集上取得了与state-of-the-art相近的性能。文章还介绍了方法的具体实现、实验结果和相关文献。
关键观点总结
关键观点1: 机器之心AIxiv专栏介绍
该专栏是机器之心发布学术、技术内容的栏目,多年来报道了多篇覆盖全球各大高校与企业的顶级实验室内容,促进了学术交流与传播。
关键观点2: ScanFormer框架提出
浙江大学李玺教授团队提出了ScanFormer框架,采用coarse-to-fine的迭代感知方式,在图像金字塔中逐层scan,关注前景/任务相关区域,降低计算浪费。
关键观点3: 方法实现与实验结果
方法采用统一文本和视觉模态的ViLT模型,并通过实验在多个数据集上取得了与state-of-the-art相近的性能。同时,方法达到了实时的推理速度,并有一些初步的早退机制尝试。
关键观点4: 相关文献介绍
文章还介绍了与方法相关的文献,包括ViLT、MDETR和OFA等。
文章预览
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学,通讯作者为李玺教授(IET Fellow,国家杰青)。李玺教授团队近年来在国际权威期刊(如 TPAMI、IJCV 等)和国际顶级学术会议(ICCV、CVPR、ECCV 等)上发表 180 余篇 CV/AIGC 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。 作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文
………………………………