文章预览
扩大输入图像是促进小目标检测的一种直接而有效的方法。然而,简单的图像放大在计算和GPU内存上的开销极大。实际上,小目标通常在图像中稀疏分布且局部聚集。因此,大量的特征提取计算被浪费在非目标背景区域上。 近期的研究尝试使用额外的网络来挑选包含目标的区域,并执行常规的目标检测,但新引入的计算限制了它们的最终性能。在本文中,作者提出重用检测器的 Backbone 网络来进行特征 Level 的目标寻找和图像块切片,这可以避免冗余的特征提取并降低计算成本。 结合稀疏检测Head,作者能够在高分辨率输入(例如1080P或更高)上检测小目标,以获得更优的性能。由此产生的“高效小目标检测”(ESOD)方法是一个通用框架,可以应用于基于CNN和ViT的检测器,以节省计算和GPU内存成本。 大量实验证明了作者方法的有效性和效率。特别是
………………………………