今天看啥  ›  专栏  ›  小白玩转Python

从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器

小白玩转Python  · 公众号  ·  · 2024-11-12 20:00

文章预览

点击下方 卡片 ,关注“ 小白玩转Python ”公众号 到目前为止,我们已经详细转换了各种重要的ViT架构。在这个视觉transformer系列的这一部分,我将使用PyTorch从零开始构建 掩模 自编码器视觉transformer。不再拖延,让我们直接进入主题! 掩模 自编码器 Mae是一种自监督学习方法,这意味着它没有预先标记的目标数据,而是在训练时利用输入数据。这种方法主要涉及遮蔽图像的75%的补丁。因此,在创建补丁(H/补丁大小,W/补丁大小)之后,其中H和W是图像的高度和宽度,我们遮蔽75%的补丁,只使用其余的补丁并将其输入到标准的ViT中。 这里的主要目标是仅使用图像中已知的补丁重建缺失的补丁。 输入(75%的补丁被遮蔽) | 目标(重建缺失的像素) MAE主要包含这三个组件: 随机遮蔽 编码器 解码器 随机掩盖 这就像选择图像的随机补丁,然后掩盖其中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览