专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【HKUST博士论文】从查询到提示:走向开放世界感知

专知  · 公众号  ·  · 2025-01-18 11:00
    

文章预览

当代大多数感知模型依赖于基于Transformer的架构,如用于目标检测的DETR和用于图像分割的Mask2Former。这些框架的核心概念是通过查询的形式从图像特征中提取目标,强调了查询设计的重要性。 在本论文中,我们探讨了通过创新的查询设计,将局部先验整合到全局注意力机制中的方法,具体应用于DN-DETR和DINO。这些设计包括:1. 将查询概念化为锚框;2. 在每一层解码器中预测相对的目标位置;3. 通过辅助去噪任务使查询与目标边界框接近;4. 战略性地初始化查询并结合选择过程。这些进展在性能和训练效率上都取得了显著的提高。因此,我们的DINO成为许多顶级检测模型所采用的最强检测头。 在开放世界感知领域,定义对象是一个根本性的挑战。在计算机视觉中,视觉提示常用于在开放世界环境中识别对象,功能类似于闭集感知中的查询。 为了解决 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览