专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

[ACM MM 2024] FDP：利用CLIP实现准确高效灵活的场景文字检索

AI算法与图像处理 · 公众号 · · 2024-08-06 21:38

文章预览

本文简要介绍 ACM MM 2024 录用论文“ Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval ”。该论文提出了一个名为“ Focus, Distinguish, and Prompt (FDP) ”的方法，通过充分挖掘 CLIP 的内在潜能来实现无需感知的（ OCR-free ）场景文字检索。具体而言，针对 CLIP 直接用于场景文字检索时存在的文字感知尺度有限和视觉语义概念纠缠两方面问题，提出首先通过转移注意力和探寻隐含知识模块使模型聚焦于场景文字，然后将查询文本分类成实词和虚词分别进行处理，并设计扰动查询辅助模块抵抗形近单词的干扰，最后通过语义感知的提示方法完成图像的排序和检索。由于免去了复杂的场景文字检测和识别过程， FDP 在保证检索精度的条件下能够显著提高检索速度，并在词组级别检索和属性感知检索设置下展现出突出的优势。一、研究背景 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博