work-life balance.
今天看啥  ›  专栏  ›  晓飞的算法工程笔记

NeurIPS'24 | VL-SAM:北大出品,完全无训练的开放式检测分割模型

晓飞的算法工程笔记  · 公众号  ·  · 2025-01-02 09:41
    

文章预览

来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts 论文地址: https://arxiv.org/abs/2410.05963 创新点 提出了一个无需训练框架 VL-SAM ,将广义物体识别模型(即视觉-语言模型)与广义物体定位模型(即 Segment-Anything 模型)结合起来,以解决开放式物体检测和分割任务。 设计了一个注意力图生成模块,通过头聚合和正则化的注意力流来聚合 VLM 中所有头和层的注意力图,从而生成高质量的注意力图。 设计了提示生成模块迭代地从注意力图中迭代地抽样正负点,并将抽样的点发送给 SAM 以分割相应的物体。 VL-SAM 在长尾实例分割数据集( LVIS )和边缘案例物体检测数据集( CODA )上也表现出了良好的性能,证明了 VL-SAM 在现实世界应用中的有效性。 VL-SAM 表现出良好的模型泛化能力,可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览