专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

论文解读 | ACL2024：MARVEL：通过视觉模块插件解锁密集检索的多模态能力

AI TIME 论道 · 公众号 · · 2024-08-11 10:46

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！概述这篇论文提出了一种名为视觉模块插件多模态检索模型（MARVEL），它学习了一个嵌入空间，用于对查询和多模态文档进行检索。MARVEL使用统一的编码器模型对查询和多模态文档进行编码，这有助于减少图像和文本之间的模态差异。具体来说，我们通过将视觉模块编码的图像特征作为输入，增强了训练有素的密集检索器T5-ANCE的图像理解能力。为了促进多模态检索任务，我们基于ClueWeb22数据集构建了ClueWeb22-MM数据集，该数据集将锚文本视为查询，并从锚链接的网页中提取相关的文本和图像文档。我们的实验表明，MARVEL在多模态检索数据集WebQA和ClueWeb22-MM上显著优于最先进的方法。MARVEL提供了一个机会，将文本检索的优势扩展到多模态场景。此外，我们还展示了语言模型具有提取图像语义的能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博