专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

经典图像模型解读之Swin-Transformer

瓦力算法学研所  · 公众号  ·  · 2024-11-08 08:00
    

文章预览

技术总结专栏 本文介绍经典模型之Swin Transformer。 Swin Transformer是一种经典的视觉Transformer架构,专为计算机视觉任务设计,通过层次化的特征表达和创新的移位窗口自注意力机制,有效地处理高分辨率图像,具有通用性和灵活性,适用于图像分类、目标检测和语义分割等多种视觉任务。 感兴趣的小伙伴可以看看论文: https://arxiv.org/abs/2103.14030 模型介绍 上图为Swin Transformer模型图。整个模型采取层次化的设计,一共包含4个Stage,每个stage都会缩小输入特征图的分辨率,像CNN一样逐层扩大感受野。 Patch Embedding :Swin Transformer处理输入图像的初始步骤。假设输入图像的尺寸遵循ImageNet的标准,即H×W×C(其中H和W分别为图像的高度和宽度,C为通道数),在Swin Transformer的第一阶段,patch的大小被设定为p×p。经过Patch Embedding处理后,图像被划分成H/p×W/p个patch ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览