专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

大白话用Transformer做Object Detection

极市平台  · 公众号  · 科技自媒体  · 2024-12-08 22:00
    

主要观点总结

本文是对DETR系列文章的总结记录,介绍了DETR的基本原理和针对其缺点的改进工作。文章从大白话Attention理解开始,解释了为什么使用Transformer做目标检测,并详细描述了DETR网络结构。此外,文章还探讨了DETR收敛慢的原因以及一系列改进方向。

关键观点总结

关键观点1: 大白话Attention理解

解释了Attention的本质就是加权,一部分重要,其它部分不重要;或者一部分相关,其它部分不相关。在特征提取中,q(query)代表理想中的标准,k(key)代表每个真实候选人的特征,v(value)就是每个真实候选人的实际特征。通过计算k对于q的相似度,确定每个候选人的权重。

关键观点2: 为什么使用Transformer做目标检测

DETR的本质是基于查询(query)的目标检测,相比基于锚框或锚点(anchor box or anchor point)的CNN时代检测方法,更符合image-to-boxes的范式。DETR具有两大核心优势:一是端到端检测,二是解耦输入与输出空间。

关键观点3: DETR网络结构

DETR网络结构包括backbone(特征提取)、encoder(特征聚合)、decoder(query精修)。区别于基于anchor的目标检测器,DETR的encoder和decoder都是由基于Attention机制的Transformer实现。

关键观点4: DETR收敛慢的原因

由于object query和image feature间的不对齐(位置上的和语义上的),导致Transformer decoder中的Cross-attention layer难以精确地匹配到待检测物体所对应的特征区域。因此,object query采集了很多除目标物体以外的无关特征,导致DETR收敛缓慢。

关键观点5: DETR的改进方向

为了改进DETR的收敛速度,一系列工作通过不同的方式限制了object query的采样区域,使得网络能够更快地聚焦于物体区域。这些改进包括Deformable DETR、SMCA DETR、Anchor DETR、DAB DETR和SAM DETR等。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨秋名山车神@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/503011317 编辑丨极市平台 极市导读   本文为作者隔离期间学习的DETR系列文章的总结记录,内容追求简单、清晰、易懂。 主要介绍了DETR的基本原理和针对DETR缺点的改进工作。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 1 大白话Attention 理解Attention是读懂Transformer[2]论文的第一步,说白了就是一个公式: 其中q=fc(a),k=fc(b),v=fc(b)。如果a==b就是Self-attention(ViT中全是这玩意);如果a!=b就是Cross-attention(一般应用于Transformer decoder)。注意这三个fc层不共享参数。简单起见,省略了scaling factor(不影响理解)。 那么如何理解这个公式呢?Attention的本质就是加权:一部分重要,其它部分不重要;或者说一部分相关,其它部分不相关。上式中的加权是基于k对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览