ACM MM'24 Oral | MMCA：多模态动态权重更新，视觉定位新SOTA

晓飞的算法工程笔记 · 公众号 · · 2024-10-25 12:01

文章预览

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation 论文地址：https://arxiv.org/abs/2409.04999 论文代码：https://github.com/Mr-Bigworth/MMCA 创新点提出了多模态条件适应（ MMCA ）方法，该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。将提出的 MMCA 应用于主流的视觉引导框架，并提出了灵活的多模态条件变换器和卷积模块，这些模块可以作为即插即用组件轻松应用于其他视觉引导模型。进行广泛的实验以验证该方法的有效性，在四个具有代表性的数据集上的结果显示出显著的改善，且成本较小。内容概述视觉定位旨在将传统的物体检测推广到定位与自由形式文本描述相对应的图像区域，已成为多模态推理中的核心问题。现有的方法通过扩展通用物体检测框架来应对这一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博