OVMR：华为北大联手，基于多模态融合的SOTA开放词汇识别 | CVPR 2024

晓飞的算法工程笔记 · 公众号 · · 2024-08-27 13:18

文章预览

即插即用的方法 OVMR 将新类别的多模态线索嵌入到 VLM 中，以增强其在开放词汇识别中的能力。它最初利用多模态分类器生成模块将示例图像嵌入到视觉标记中，然后通过推断它们与语言编码器的上下文关系来自适应地融合多模态线索。为了减轻低质量模态的负面影响，通过一个无参数融合模块根据每个类别对这些分类器的特定偏好，动态地将多模态分类器与两个单模分类器集成来源：晓飞的算法工程笔记公众号论文: OVMR: Open-Vocabulary Recognition with Multi-Modal References 论文地址：https://arxiv.org/abs/2406.04675 论文代码：https://github.com/Zehong-Ma/OVMR Introduction 开放词汇识别旨在识别训练集之外的未见过的对象，这是一项具有挑战性的任务，因为模型对测试集中的新类别一无所知。除了尽量预训练具有较强泛化能力的模型外，最近的研究还通过将新颖类别线 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博