专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI TIME 论道

论文解读 | ACL2024:MARVEL:通过视觉模块插件解锁密集检索的多模态能力

AI TIME 论道  · 公众号  ·  · 2024-08-11 10:46

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 概述 这篇论文提出了一种名为视觉模块插件多模态检索模型(MARVEL),它学习了一个嵌入空间,用于对查询和多模态文档进行检索。MARVEL使用统一的编码器模型对查询和多模态文档进行编码,这有助于减少图像和文本之间的模态差异。具体来说,我们通过将视觉模块编码的图像特征作为输入,增强了训练有素的密集检索器T5-ANCE的图像理解能力。为了促进多模态检索任务,我们基于ClueWeb22数据集构建了ClueWeb22-MM数据集,该数据集将锚文本视为查询,并从锚链接的网页中提取相关的文本和图像文档。我们的实验表明,MARVEL在多模态检索数据集WebQA和ClueWeb22-MM上显著优于最先进的方法。MARVEL提供了一个机会,将文本检索的优势扩展到多模态场景。此外,我们还展示了语言模型具有提取图像语义的能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览