专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
今天看啥  ›  专栏  ›  极市平台

大白话用Transformer做Object Detection

极市平台  · 公众号  · 科技自媒体  · 2024-12-08 22:00
    

主要观点总结

本文是对DETR系列文章的总结记录,介绍了DETR的基本原理和针对其缺点的改进工作。文章从大白话Attention理解开始,解释了为什么使用Transformer做目标检测,并详细描述了DETR网络结构。此外,文章还探讨了DETR收敛慢的原因以及一系列改进方向。

关键观点总结

关键观点1: 大白话Attention理解

解释了Attention的本质就是加权,一部分重要,其它部分不重要;或者一部分相关,其它部分不相关。在特征提取中,q(query)代表理想中的标准,k(key)代表每个真实候选人的特征,v(value)就是每个真实候选人的实际特征。通过计算k对于q的相似度,确定每个候选人的权重。

关键观点2: 为什么使用Transformer做目标检测

DETR的本质是基于查询(query)的目标检测,相比基于锚框或锚点(anchor box or anchor point)的CNN时代检测方法,更符合image-to-boxes的范式。DETR具有两大核心优势:一是端到端检测,二是解耦输入与输出空间。

关键观点3: DETR网络结构

DETR网络结构包括backbone(特征提取)、encoder(特征聚合)、decoder(query精修)。区别于基于anchor的目标检测器,DETR的encoder和decoder都是由基于Attention机制的Transformer实现。

关键观点4: DETR收敛慢的原因

由于object query和image feature间的不对齐(位置上的和语义上的),导致Transformer decoder中的Cross-attention layer难以精确地匹配到待检测物体所对应的特征区域。因此,object query采集了很多除目标物体以外的无关特征,导致DETR收敛缓慢。

关键观点5: DETR的改进方向

为了改进DETR的收敛速度,一系列工作通过不同的方式限制了object query的采样区域,使得网络能够更快地聚焦于物体区域。这些改进包括Deformable DETR、SMCA DETR、Anchor DETR、DAB DETR和SAM DETR等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照