今天看啥  ›  专栏  ›  灵度智能

基于 Global-Local Vision Transformer的高频信息增强分割 !

灵度智能  · 公众号  ·  · 2024-11-10 12:20
    

文章预览

点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 许多研究已经证明了基于视觉 Transformer (ViT)的方法在各种计算机视觉任务上具有强大的性能。然而,ViT模型通常很难有效地捕获图像中的高频成分,这对于检测小目标并保持边缘细节至关重要,尤其是在复杂场景中。 这种限制在结肠息肉分割任务中尤为具有挑战性,因为息肉在结构、纹理和形状上表现出显著的变异。高频信息,如边界细节,对于在这种背景下实现精确语义分割至关重要。 为了应对这些挑战,作者提出了一种名为HiFiSeg的新型结肠息肉分割网络,通过全局-局部视觉 Transformer 框架增强高频信息处理。 HiFiSeg使用金字塔视觉 Transformer (PVT)作为其编码器,并引入了两个关键模块:全局-局部交互模块(GLIM)和选择性聚合模块(SAM)。 GLIM采用并行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览