文章预览
今日更新17篇: 计算机视觉 9篇 自然语言处理 8篇 如果你想增加某个领域或会议的收集,可以后台私信。 计算机视觉: 9篇 [0] ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation[cs.CV] 标题:ProxyCLIP:代理注意力改进了开放词汇分割的 CLIP 作者:Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang 链接:http://arxiv.org/abs/2408.04883 摘要 :开放词汇语义分割需要模型将视觉表示与开放词汇语义标签有效地集成。虽然对比语言图像预训练(CLIP)模型在从文本中识别视觉概念方面表现出色,但由于其有限的本地化能力,它们经常难以实现片段连贯性。相比之下,视觉基础模型(VFM)擅长获取空间一致的局部视觉表示,但在语义理解方面存在不足。本文介绍了 ProxyCLIP,这是一个创新框架,旨在协调 CLIP 和 VFM 的优势,促进增强的开放词汇语义分割
………………………………