今天看啥  ›  专栏  ›  晓飞的算法工程笔记

ECCV'24 | SyncOOD:增加OOD目标检测鲁棒性,自动化数据助您一臂之力

晓飞的算法工程笔记  · 公众号  · 科技创业 科技自媒体  · 2024-10-28 11:45
    

主要观点总结

本文研究了在大规模开放集数据上训练的文本到图像生成模型在目标检测任务中合成OOD(分布外)对象的潜力。文章提出了一种简单的方法SyncOOD,该方法利用大型基础模型的能力从文本到图像的生成模型中自动提取有意义的OOD数据,用于增强OOD目标检测。文章的关键点包括数据整理过程、利用大型语言模型进行新对象发现、使用视觉基础模型进行数据注释和过滤、合成数据的自动化过程以及使用合成数据优化ID/OOD决策边界的方法。

关键观点总结

关键观点1: 研究并发掘文本到图像生成模型在目标检测任务中合成OOD对象的潜力。

文章提出了一种利用大型基础模型的自动化数据整理过程,获取可控的、带注释的场景级合成OOD图像,用于OOD目标检测。

关键观点2: 利用大型语言模型(LLMs)进行新对象发现。

通过使用大型语言模型的能力,可以基于训练集中的ID标签来设想新颖的对象,同时保持与ID对象的语义可分性。

关键观点3: 使用视觉基础模型进行数据注释和过滤。

利用视觉基础模型来细化合成对象的注释框,并解决由于扩散模型中的随机性导致的问题。

关键观点4: 发掘难OOD样本以及模型训练。

通过寻找最可能被目标检测器混淆为原始ID对象的新对象,以找到最有效的OOD样本。使用这些合成样本优化ID/OOD决策边界。

关键观点5: 文章实验及成果

文章在多个基准上进行了全面实验,证明了SyncOOD方法的有效性,显著超越了现有的最先进方法。


文章预览

本文是对公开论文的核心提炼,而非直接翻译,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Can OOD Object Detectors Learn from Foundation Models? 论文地址:https://arxiv.org/abs/2409.05162 论文代码:https://github.com/CVMI-Lab/SyncOOD 创新点 研究并发掘在大规模开放集数据上训练的文本到图像生成模型在目标检测任务中合成 OOD 对象的潜力。 引入一种自动化的数据整理过程以获取可控的、带注释的场景级合成 OOD 图像,用于 OOD 目标检测。该过程利用大型语言模型( LLMs )进行新对象发现,并使用视觉基础模型进行数据注释和过滤。 发现在保持 ID / OOD 图像上下文的一致性以及获得更准确的 OOD 注释边界框,对合成数据在 OOD 目标检测中的有效性至关重要。 在多个基准上的全面实验证明了该 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览