文章预览
DETR--->DETR3D--->Sparse4D: 长时序稀疏3D目标检测进化之路 一、DETR 图1 DETR架构 DETR是第一篇将Transformer应用到目标检测方向的算法。DETR是一个经典的Encoder-Decoder结构的算法,它的骨干网络是一个卷积网络,Encoder和Decoder则是两个基于Transformer的结构。DETR的输出层则是一个MLP。它使用了一个基于二部图匹配(bipartite matching)的损失函数,这个二部图是基于ground truth和预测的bounding box进行匹配的。 最终性能与Faster-RCNN持平 。 图2 DETR网络结构 Backbone: 当我们利用卷积神经网络时,会有两个假设: 平移不变性 :kernel 的参数在图像任何地方时一致的。 局部性 :要找某一个特征只需要在一个区域的周围检索,不需要全局观察。 而detr则是从0开始学起的,所以它的backbone采用经典的ResNet101网络对图像提取特征,为下面的Encoder获取先验知识。 流程如下: (1)假设
………………………………