文章预览
本文简要介绍 ACM MM 2024 录用论文“ Focus,
Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text
Retrieval ”。该论文提出了一个名为“ Focus, Distinguish, and Prompt (FDP) ”的方法,通过充分挖掘 CLIP 的内在潜能来实现无需感知的( OCR-free )场景文字检索。具体而言,针对 CLIP 直接用于场景文字检索时存在的文字感知尺度有限和视觉语义概念纠缠两方面问题,提出首先通过转移注意力和探寻隐含知识模块使模型聚焦于场景文字,然后将查询文本分类成实词和虚词分别进行处理,并设计扰动查询辅助模块抵抗形近单词的干扰,最后通过语义感知的提示方法完成图像的排序和检索。由于免去了复杂的场景文字检测和识别过程, FDP 在保证检索精度的条件下能够显著提高检索速度,并在词组级别检索和属性感知检索设置下展现出突出的优势。 一、研究背景
………………………………