今天看啥  ›  专栏  ›  江大白

TaskCLIP:扩展大型视觉-语言模型以用于面向任务的目标检测

江大白  · 公众号  ·  · 2024-11-22 08:00
    

文章预览

摘要 面向任务的目标检测旨在找到适合执行特定任务的物体。 作为一项具有挑战性的任务,它需要在模糊语义下同时进行视觉数据处理和推理。 最近的解决方案主要是多合一模型。 然而,目标检测主干在没有文本监督的情况下进行了预训练。 因此,为了将任务要求纳入其中,他们复杂的模型在高度不平衡和稀缺的数据集上进行了广泛的学习,导致性能上限,训练繁琐,泛化性差。 相反,我们提出了 TaskCLIP,这是一种更自然的两阶段设计,由一般目标检测和任务推理对象选择组成。 特别是对于后者,我们采用最近取得成功的大型视觉-语言模型 (VLM) 作为我们的主干,它提供了丰富的语义知识和用于图像和文本的统一嵌入空间。 然而,VLM 的直接应用会导致质量不佳,因为对象图像的嵌入与其视觉属性(主要是形容词短语)之间存在错位。  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章