文章预览
本文简要介绍ICML 2024 Spotlight论文 “Towards Unified
Multi-granularity Text Detection with Interactive Attention” 的主要工作。 该论文提出了一种名为“Detect Any Text”(DAT) 的新型文字统一检测算法框架,高效解决文档智能应用中不同粒度文字检测需求,具体包括单词、文字行、段落以及页面四种粒度。 本文的主要贡献在于引入了跨粒度的特征交互模块,通过学习不同粒度文字实例之间的结构相关性,从而有效提升模型对于各种粒度文本的检测效果; 以及设计了一种混合粒度训练策略,以端到端的形式并行完成不同粒度文字的检测任务,从而显著降低了多粒度文字检测的算法复杂度。 图1 多粒度文字实例之间的结构相关性示意图;第一行为原始图片;第二行为多粒度文字检测结果真值,分别包括单词(用黄色多边形标注)、文字行(用绿色多边形标注)、段落(用
………………………………