专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
今天看啥  ›  专栏  ›  计算机视觉研究院

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

计算机视觉研究院  · 公众号  ·  · 2024-06-09 13:06
    

文章预览

关注并星标 从此不迷路 计算机视觉研究院 公众号ID | ComputerVisionGzq 学习群 | 扫码在主页获取加入方式 论文地址: https://arxiv.org/pdf/2206.02647.pdf 计算机视觉研究院专栏 作者:Edison_G Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1   概括 对于计算病理学中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈现视觉标记的层次结构:从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。 研究者引入了一种新的ViT架构,称为 分层图像金字塔变换器 (HIPT),它利用WSI中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览