专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

X-CLIP:用于视频文本检索的端到端多粒度对比学习

FightingCV  · 公众号  ·  · 2025-03-04 09:00
    

文章预览

摘要。 视频文本检索一直是多模态研究中一项至关重要且基础的任务。  大规模多模态对比预训练极大地促进了视频文本检索的发展,其主要关注粗粒度或细粒度对比。  然而,以往的研究很少探索粗粒度表示和细粒度表示之间的对比,即跨粒度对比。  与细粒度或粗粒度对比相比,跨粒度对比计算粗粒度特征与每个细粒度特征之间的相关性,并且能够在相似性计算过程中,在粗粒度特征的引导下过滤掉不必要的细粒度特征,从而提高检索精度。  为此,本文提出了一种新的多粒度对比模型,即X-CLIP,用于视频文本检索。  然而,另一个挑战在于相似性聚合问题,其目标是将细粒度和跨粒度相似性矩阵聚合为实例级相似性。  为了解决这一挑战,我们提出了基于相似性矩阵的注意力机制 (AOSM) 模块,使模型能够关注关键帧和词语之间的对比,从而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览