注册登录

专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

游戏茶馆 · 《三谋》和百度一审判赔偿灵犀100万，B站：将上诉 · 15 小时前

哔哩哔哩 · 老二次元の赛博中年危机 · 22 小时前

哔哩哔哩 · 他翻遍城市角落，找回了90后遗失的千禧年 · 22 小时前

哔哩哔哩 · 文科生会被AI取代吗？ · 昨天

今天看啥 › 专栏 › 小白学视觉

ViTDet — 图像基础模型的首选架构

小白学视觉 · 公众号 · · 2024-07-08 10:05

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达截至2024年1月，ViTDet是所有视觉任务的首选架构。它被用于“segment-anything”。在ViTAE-Transformer中，我们在语义分割、目标检测、人体姿势、抠图、遥感等多个任务上取得了最先进的结果。理解这个骨干架构将有助于我们根据任务选择最佳参数。 ViTDet的设计是为了强调使用变换器进行目标检测的专门架构的必要性。从某种意义上说，我会将其称为一个超简化的Swin Transformers，基本上去掉了网络的分层结构，转换了窗口等。注意：我们只讨论骨干部分，不涉及基于FPN的消融研究。因此，网络大致分为以下几部分： [PatchEmbed] -> nx[blocks] -> [Neck] 在每个块内部，我们有：窗口注意力相对位置编码导入所需的参数 import math import numpy as np import torch import torch.nn as nn import fa ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

游戏茶馆 · 《三谋》和百度一审判赔偿灵犀100万，B站：将上诉

15 小时前

哔哩哔哩 · 老二次元の赛博中年危机

22 小时前

哔哩哔哩 · 他翻遍城市角落，找回了90后遗失的千禧年

22 小时前

哔哩哔哩 · 文科生会被AI取代吗？

昨天

齐俊杰看财经 · 《超越巴菲特的伯克希尔》深度解读股神无可复制的商业模式

4 月前

知识产权杂志 · 知识产权期刊发展与学术体系构建研讨会在上海举办

3 月前

Jump x Switch · Switch 2香港体验会时间确定！任天堂即将发布新款Switch OLED同捆套装！

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号