专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

计算机视觉研究院 · 公众号 · · 2024-06-09 13:06

文章预览

关注并星标从此不迷路计算机视觉研究院公众号ID ｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址： https://arxiv.org/pdf/2206.02647.pdf 计算机视觉研究院专栏作者：Edison_G Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示，但它们的使用通常被研究用于低分辨率图像（例如256×256、384×384）。 1 概括对于计算病理学中的千兆像素全玻片成像 (WSI)，WSI在20倍放大倍率下可大至150000×150000像素，并在不同分辨率下呈现视觉标记的层次结构：从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。研究者引入了一种新的ViT架构，称为分层图像金字塔变换器 (HIPT)，它利用WSI中固有的自然分层结构，使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博