文章预览
关注并星标 从此不迷路 计算机视觉研究院 公众号ID | ComputerVisionGzq 学习群 | 扫码在主页获取加入方式 论文地址: https://arxiv.org/pdf/2206.02647.pdf 计算机视觉研究院专栏 Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1 概括 对于计算病理学中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈现视觉标记的层次结构:从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。 研究者引入了一种新的ViT架构,称为 分层图像金字塔变换器 (HIPT),它利用WSI中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图像对33种癌症类
………………………………