文章预览
即插即用的方法 OVMR 将新类别的多模态线索嵌入到 VLM 中,以增强其在开放词汇识别中的能力。它最初利用多模态分类器生成模块将示例图像嵌入到视觉标记中,然后通过推断它们与语言编码器的上下文关系来自适应地融合多模态线索。为了减轻低质量模态的负面影响,通过一个无参数融合模块根据每个类别对这些分类器的特定偏好,动态地将多模态分类器与两个单模分类器集成 来源:晓飞的算法工程笔记 公众号 论文: OVMR: Open-Vocabulary Recognition with Multi-Modal References 论文地址:https://arxiv.org/abs/2406.04675 论文代码:https://github.com/Zehong-Ma/OVMR Introduction 开放词汇识别旨在识别训练集之外的未见过的对象,这是一项具有挑战性的任务,因为模型对测试集中的新类别一无所知。除了尽量预训练具有较强泛化能力的模型外,最近的研究还通过将新颖类别线
………………………………