专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

[ACM MM 2024] FDP:利用CLIP实现准确高效灵活的场景文字检索

专知  · 公众号  ·  · 2024-08-08 22:42
    

文章预览

本文简要介绍 ACM MM 2024 录用论文“ Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval ”。该论文提出了一个名为“ Focus, Distinguish, and Prompt (FDP) ”的方法,通过充分挖掘 CLIP 的内在潜能来实现无需感知的( OCR-free )场景文字检索。具体而言,针对 CLIP 直接用于场景文字检索时存在的文字感知尺度有限和视觉语义概念纠缠两方面问题,提出首先通过转移注意力和探寻隐含知识模块使模型聚焦于场景文字,然后将查询文本分类成实词和虚词分别进行处理,并设计扰动查询辅助模块抵抗形近单词的干扰,最后通过语义感知的提示方法完成图像的排序和检索。由于免去了复杂的场景文字检测和识别过程, FDP 在保证检索精度的条件下能够显著提高检索速度,并在词组级别检索和属性感知检索设置下展现出突出的优势。 一、研究背景 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览