专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

CLIP-Count:迈向文本引导的零样本目标计数

FightingCV  · 公众号  ·  · 2025-01-07 09:00
    

文章预览

摘要。 视觉语言模型的最新进展展现了显著的零样本文本图像匹配能力,这种能力可转移到目标检测和分割等下游任务中。 然而,将这些模型应用于目标计数仍然是一个巨大的挑战。 在本研究中,我们首先研究了将视觉语言模型 (VLMs) 用于类别无关的目标计数。 具体来说,我们提出了 CLIP-Count ,这是第一个端到端的管道,能够以零样本的方式通过文本引导来估计开放词汇目标的密度图。 为了将文本嵌入与密集的视觉特征对齐,我们引入了一种图像块-文本对比损失,引导模型学习用于密集预测的信息丰富的图像块级视觉表示。 此外,我们设计了一个分层的图像块-文本交互模块,以在视觉特征的不同分辨率级别上传播语义信息。 得益于充分利用预训练 VLMs 中丰富的图像文本对齐知识,我们的方法有效地生成了感兴趣目标的高质量密度图。 在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览