专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
今天看啥  ›  专栏  ›  小白学视觉

ViTDet — 图像基础模型的首选架构

小白学视觉  · 公众号  ·  · 2024-07-08 10:05
    

文章预览

点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 截至2024年1月,ViTDet是所有视觉任务的首选架构。它被用于“segment-anything”。在ViTAE-Transformer中,我们在语义分割、目标检测、人体姿势、抠图、遥感等多个任务上取得了最先进的结果。理解这个骨干架构将有助于我们根据任务选择最佳参数。 ViTDet的设计是为了强调使用变换器进行目标检测的专门架构的必要性。从某种意义上说,我会将其称为一个超简化的Swin Transformers,基本上去掉了网络的分层结构,转换了窗口等。 注意:我们只讨论骨干部分,不涉及基于FPN的消融研究。 因此,网络大致分为以下几部分: [PatchEmbed] -> nx[blocks] -> [Neck] 在每个块内部,我们有: 窗口注意力  相对位置编码 导入所需的参数 import math import numpy as np import torch import torch.nn as nn import fa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览