文章预览
分段任何模型(SAM)已经显示出将图像像素分组为块的一般能力,但将其应用于具有语义意识的分割仍面临重大挑战。 本文提出了SAM-CP1,这是一种简单的方法,它在SAM的基础上建立了两种可组合的提示,并将它们组合起来实现多功能的分割。 具体来说,给定一组类别(以文本形式)和一个SAM块集合,类型I提示判断一个SAM块是否与文本标签对齐,而类型II提示判断具有相同文本标签的两个SAM块是否也属于同一实例。 为了降低处理大量语义类别和块时的复杂性,作者建立了一个统一的框架,该框架计算了(语义和实例) Query 与SAM块之间的亲和力,并将与 Query 亲和力高的块合并。 实验表明,SAM-CP在开放和封闭领域均实现了语义、实例和全景分割。 特别是,它在开放词汇分割方面达到了最先进的表现。作者的研究为为SAM这样的视觉基础模型装备多粒
………………………………