ECCV'24 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

晓飞的算法工程笔记 · 公众号 · · 2024-11-11 12:03

文章预览

本文是对公开论文的核心提炼，而非直接翻译，旨在进行学术交流。如有任何侵权问题，请及时联系号主以便删除。来源：晓飞的算法工程笔记公众号，转载请注明出处论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection 论文地址：https://arxiv.org/abs/2409.17330 创新性提出 VL4AD 模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题，避免额外的数据收集和模型训练。 VL4AD 将视觉-语言（ VL ）编码器纳入现有的异常检测器，利用语义广泛的 VL 预训练来增强对离群样本的感知，还加入 max-logit 提示集成和类别合并策略用于丰富类别描述。提出了一种新的评分函数，可通过文本提示实现无数据和无训练的离群样本监督。 VL4AD 视觉文本编码器视觉编码器是与文本编码器共同预训练，解码器处理多尺度的视觉和文本嵌入，生成两 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(11.23)》爱可可微博热门分享(11-20241123230045

昨天

爱可可-爱生活 · 【LTX-Video：一款基于DiT的实时视频生成模型，可在实时-20241123155404

昨天

爱可可-爱生活 · 【Marco-o1：开源大型推理模型，专注于解决现实世界的开放性-20241123155539

昨天

爱可可-爱生活 · 【Sequin：一款帮助你调试命令行界面和文本用户界面的小工具，-20241119140651

5 天前

宝玉xp · AI辅导作业👍//@fxsome:给孩子整理错题，错题大都是图-20241119074130

6 天前

严道医声网 · 震心英雄-冲击波病例挑战赛｜精彩病例：南京鼓楼医院孙嘉腾博士（徐标/王昆主任团队）应用IVL高效处理LAD支架膨胀不全一例

3 月前