专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

EVA 与 CLIP 的融合力量 | 在 V3Det 数据集上展现强大的语义特征提取能力 !

集智书童  · 公众号  ·  · 2024-06-20 09:00

文章预览

点击下方卡片,关注 「集智书童」 公众号 点击加入👉 「集智书童」 交流群 在本技术报告中,作者展示了在Vast Vocabulary Visual Detection(V3Det)数据集上针对监督大词汇视觉检测任务的研究成果。如何处理复杂类别和检测框已成为这一赛道的难点。 原始的监督检测器不适用于此任务。 作者设计了一系列改进措施,包括调整网络结构、改变损失函数以及设计训练策略。 作者的模型在 Baseline 基础上有所提升,并在2024年V3Det挑战的大词汇目标检测(监督)赛道和开放词汇目标检测(OVD)赛道的排行榜上取得了优异的成绩。 1 Introduction V3Det数据集[38]是一个大规模、丰富标注的数据集,包含超过13,000个目标类别的检测边界框标注,这些标注是基于真实图像的。它包括一个分层的类别结构,详细的类别隶属关系形成一个完整的关系树。如图1所示,V3Det包含245 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览