TPAMI 2024.9 | HIRI-VIT：一种新的混合视觉Transformer

深度学习基础与进阶 · 公众号 · · 2024-09-20 14:29

文章预览

论文标题：HIRI-ViT: Scaling Vision Transformer With High Resolution Inputs 论文链接：https://ieeexplore.ieee.org/document/10475592 这篇论文提出了一种新的混合视觉Transformer模型（HIRI-ViT），用于在处理高分辨率图像时有效地扩展模型性能，同时保持较低的计算开销。 1. 论文创新点高分辨率输入的扩展： HIRI-ViT通过引入高分辨率输入扩展了现有的视觉Transformer架构。相比传统的视觉Transformer（ViT）只在较低分辨率图像上训练，HIRI-ViT能够处理高达448×448甚至768×768的图像输入，同时计算开销相对较低。混合CNN和ViT的设计： HIRI-ViT通过一个五阶段的混合架构（CNN与Transformer相结合），在前期的高分辨率图像处理中使用了并行的高分辨率和低分辨率分支。高分辨率分支捕捉图像细节，而低分辨率分支用于提取全局语义信息。这种设计在提高图像处理精度的同时，降低了模型的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博