文章预览
论文题目: Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models 论文作者: 余璐(天津理工大学),章海洋(天津理工大学),徐常胜(中科院自动化所) 收录会议: NeurIPS 2024 论文链接: https://arxiv.org/abs/2410.21802 代码链接: https://github.com/zhyblue424/TGA-ZSR 前言概要 大规模预训练的视觉-语言模型(Pre-trained Vision-Language Models, VLMs)已经在人工智能领域展现了卓越的成功,这些模型通过融合视觉和文本数据,能够理解复杂的多模态信息。以 CLIP 模型为例,它证明了利用大型数据集进行预训练可以在多种跨模态任务中取得优越的性能。 然而,研究表明 CLIP 对于对抗攻击生成的对抗示例较为脆弱,可能导致错误分类或改变模型输出,这对下游任务的应用造成严重影响。随着视觉-语言模型在现实中的广泛应用,理解和缓解这种威胁对于保持
………………………………