专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

DETR->DETR3D->Sparse4D:走向长时序稀疏3D目标检测

arXiv每日学术速递  · 公众号  ·  · 2024-10-18 12:34
    

文章预览

DETR--->DETR3D--->Sparse4D: 长时序稀疏3D目标检测进化之路 一、DETR 图1 DETR架构 DETR是第一篇将Transformer应用到目标检测方向的算法。DETR是一个经典的Encoder-Decoder结构的算法,它的骨干网络是一个卷积网络,Encoder和Decoder则是两个基于Transformer的结构。DETR的输出层则是一个MLP。它使用了一个基于二部图匹配(bipartite matching)的损失函数,这个二部图是基于ground truth和预测的bounding box进行匹配的。 最终性能与Faster-RCNN持平 。 图2 DETR网络结构 Backbone: 当我们利用卷积神经网络时,会有两个假设: 平移不变性 :kernel 的参数在图像任何地方时一致的。 局部性 :要找某一个特征只需要在一个区域的周围检索,不需要全局观察。 而detr则是从0开始学起的,所以它的backbone采用经典的ResNet101网络对图像提取特征,为下面的Encoder获取先验知识。 流程如下: (1)假设 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览