文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 概述 这篇论文提出了一种名为视觉模块插件多模态检索模型(MARVEL),它学习了一个嵌入空间,用于对查询和多模态文档进行检索。MARVEL使用统一的编码器模型对查询和多模态文档进行编码,这有助于减少图像和文本之间的模态差异。具体来说,我们通过将视觉模块编码的图像特征作为输入,增强了训练有素的密集检索器T5-ANCE的图像理解能力。为了促进多模态检索任务,我们基于ClueWeb22数据集构建了ClueWeb22-MM数据集,该数据集将锚文本视为查询,并从锚链接的网页中提取相关的文本和图像文档。我们的实验表明,MARVEL在多模态检索数据集WebQA和ClueWeb22-MM上显著优于最先进的方法。MARVEL提供了一个机会,将文本检索的优势扩展到多模态场景。此外,我们还展示了语言模型具有提取图像语义的能
………………………………