文章预览
多尺度学习是语义分割的核心。作者可视化了典型多尺度表示的有效感受野(ERF),并指出了在学习它们时存在的两个风险:尺度不足和场失效。作者提出了一种新颖的多尺度学习器, 变窗关注 (VWA),以解决这些问题。
VWA利用局部窗关注(LWA)并将LWA解耦为 Query 窗和上下文窗,允许 Query 在不同尺度下学习表示时上下文窗的尺度变化。然而,将上下文变化到大规模窗口(扩大比率 )会显著增加内存占用和计算成本(比LWA大 倍)。 作者提出了一种简单但专业的重新缩放策略,在不影响性能的情况下消除额外的诱导成本。因此,VWA使用与LWA相同的成本来克服局部窗口的感受限制。 此外,依赖于VWA并采用各种MLP,作者引入了一种多尺度解码器(MSD), VWFormer ,以改善用于语义分割的多尺度表示。VWFormer在效率上与最计算友好的MSD(如FPN和MLP解码器
………………………………