主要观点总结
本文是对DETR系列文章的总结记录,介绍了DETR的基本原理和针对其缺点的改进工作。文章从大白话Attention理解开始,解释了为什么使用Transformer做目标检测,并详细描述了DETR网络结构。此外,文章还探讨了DETR收敛慢的原因以及一系列改进方向。
关键观点总结
关键观点1: 大白话Attention理解
解释了Attention的本质就是加权,一部分重要,其它部分不重要;或者一部分相关,其它部分不相关。在特征提取中,q(query)代表理想中的标准,k(key)代表每个真实候选人的特征,v(value)就是每个真实候选人的实际特征。通过计算k对于q的相似度,确定每个候选人的权重。
关键观点2: 为什么使用Transformer做目标检测
DETR的本质是基于查询(query)的目标检测,相比基于锚框或锚点(anchor box or anchor point)的CNN时代检测方法,更符合image-to-boxes的范式。DETR具有两大核心优势:一是端到端检测,二是解耦输入与输出空间。
关键观点3: DETR网络结构
DETR网络结构包括backbone(特征提取)、encoder(特征聚合)、decoder(query精修)。区别于基于anchor的目标检测器,DETR的encoder和decoder都是由基于Attention机制的Transformer实现。
关键观点4: DETR收敛慢的原因
由于object query和image feature间的不对齐(位置上的和语义上的),导致Transformer decoder中的Cross-attention layer难以精确地匹配到待检测物体所对应的特征区域。因此,object query采集了很多除目标物体以外的无关特征,导致DETR收敛缓慢。
关键观点5: DETR的改进方向
为了改进DETR的收敛速度,一系列工作通过不同的方式限制了object query的采样区域,使得网络能够更快地聚焦于物体区域。这些改进包括Deformable DETR、SMCA DETR、Anchor DETR、DAB DETR和SAM DETR等。
文章预览
↑ 点击 蓝字 关注极市平台 作者丨秋名山车神@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/503011317 编辑丨极市平台 极市导读 本文为作者隔离期间学习的DETR系列文章的总结记录,内容追求简单、清晰、易懂。 主要介绍了DETR的基本原理和针对DETR缺点的改进工作。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 1 大白话Attention 理解Attention是读懂Transformer[2]论文的第一步,说白了就是一个公式: 其中q=fc(a),k=fc(b),v=fc(b)。如果a==b就是Self-attention(ViT中全是这玩意);如果a!=b就是Cross-attention(一般应用于Transformer decoder)。注意这三个fc层不共享参数。简单起见,省略了scaling factor(不影响理解)。 那么如何理解这个公式呢?Attention的本质就是加权:一部分重要,其它部分不重要;或者说一部分相关,其它部分不相关。上式中的加权是基于k对
………………………………