专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

[ICML2024] Spotlight|DAT:通过交互式注意力实现统一的多粒度文本检测

专知  · 公众号  ·  · 2024-06-27 17:00
    

文章预览

本文简要介绍ICML 2024 Spotlight论文 “Towards Unified Multi-granularity Text Detection with Interactive Attention” 的主要工作。 该论文提出了一种名为“Detect Any Text”(DAT) 的新型文字统一检测算法框架,高效解决文档智能应用中不同粒度文字检测需求,具体包括单词、文字行、段落以及页面四种粒度。 本文的主要贡献在于引入了跨粒度的特征交互模块,通过学习不同粒度文字实例之间的结构相关性,从而有效提升模型对于各种粒度文本的检测效果; 以及设计了一种混合粒度训练策略,以端到端的形式并行完成不同粒度文字的检测任务,从而显著降低了多粒度文字检测的算法复杂度。 图1 多粒度文字实例之间的结构相关性示意图;第一行为原始图片;第二行为多粒度文字检测结果真值,分别包括单词(用黄色多边形标注)、文字行(用绿色多边形标注)、段落(用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览