文章预览
本文是对公开论文的核心提炼,而非直接翻译,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection 论文地址:https://arxiv.org/abs/2409.17330 创新性 提出 VL4AD 模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题,避免额外的数据收集和模型训练。 VL4AD 将视觉-语言( VL )编码器纳入现有的异常检测器,利用语义广泛的 VL 预训练来增强对离群样本的感知,还加入 max-logit 提示集成和类别合并策略用于丰富类别描述。 提出了一种新的评分函数,可通过文本提示实现无数据和无训练的离群样本监督。 VL4AD 视觉文本编码器 视觉编码器 是与文本编码器 共同预训练,解码器 处理多尺度的视觉和文本嵌入,生成两
………………………………