ViT 微调实战

小白玩转Python · 公众号 · · 2024-07-31 20:00

文章预览

点击下方卡片，关注“ 小白玩转Python ”公众号探索 CIFAR-10 图像分类介绍你一定听说过“Attention is all your need” ？Transformers 最初从文本开始，现在已无处不在，甚至在图像中使用了一种称为视觉变换器 (ViT) 的东西，这种变换器最早是在论文《一张图片胜过 16x16 个单词：用于大规模图像识别的 Transformers》中引入的。这不仅仅是另一个浮华的趋势；事实证明，它们是强有力的竞争者，可以与卷积神经网络 (CNN) 等传统模型相媲美。 ViT 简要概述：将图像分成多个块，将这些块传递到全连接（FC）网络或 FC+CNN 以获取输入嵌入向量。添加位置信息。将其传递到传统的 Tran sformer 编码器中，并在末端附加一个 FC 层。 ViT 架构这个故事并不是关于理解 ViT 的细节，而更像是关于如何使用 Hugging Face 和 PyTorch 微调预训练的 ViT 图像分类模型并将其用 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博