【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

数据派THU · 公众号 · 大数据 · 2025-01-15 17:00

文章预览

来源：专知本文约1000字，建议阅读 5 分钟我们提出了ViPCap，一种用于轻量级图像描述的新型基于检索的文本视觉提示。最近的轻量级图像描述模型使用检索数据，主要集中在文本提示上。然而，以往的研究仅将检索到的文本作为文本提示，视觉信息仅依赖于CLIP视觉嵌入。因此，存在一个问题，即提示中固有的图像描述未能充分反映在视觉嵌入空间中。为了解决这一问题，我们提出了ViPCap，一种用于轻量级图像描述的新型基于检索的文本视觉提示。ViPCap利用检索到的文本和图像信息作为视觉提示，增强模型捕捉相关视觉信息的能力。通过将文本提示映射到CLIP空间，并生成多个随机高斯分布，我们的方法利用采样探索随机增强的分布，并有效地检索包含图像信息的语义特征。这些检索到的特征被集成到图像中，并作为视觉提示，进而在COCO、Flickr3 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博