文章预览
点击下方卡片,关注 「集智书童」 公众号 点击加入👉 「集智书童」 交流群 在本技术报告中,作者展示了在Vast Vocabulary Visual Detection(V3Det)数据集上针对监督大词汇视觉检测任务的研究成果。如何处理复杂类别和检测框已成为这一赛道的难点。 原始的监督检测器不适用于此任务。 作者设计了一系列改进措施,包括调整网络结构、改变损失函数以及设计训练策略。 作者的模型在 Baseline 基础上有所提升,并在2024年V3Det挑战的大词汇目标检测(监督)赛道和开放词汇目标检测(OVD)赛道的排行榜上取得了优异的成绩。 1 Introduction V3Det数据集[38]是一个大规模、丰富标注的数据集,包含超过13,000个目标类别的检测边界框标注,这些标注是基于真实图像的。它包括一个分层的类别结构,详细的类别隶属关系形成一个完整的关系树。如图1所示,V3Det包含245
………………………………