文章预览
“ 他 山 之 石 , 可 以 攻 玉 ” , 站 在 巨 人 的 肩 膀 才 能 看 得 更 高 , 走 得 更 远 。 在 科 研 的 道 路 上 , 更 需 借 助 东 风 才 能 更 快 前 行 。 为 此 , 我 们 特 别 搜 集 整 理 了 一 些 实 用 的 代 码 链 接 , 数 据 集 , 软 件 , 编 程 技 巧 等 , 开 辟 “ 他 山 之 石 ” 专 栏 , 助 你 乘 风 破 浪 , 一 路 奋 勇 向 前 , 敬 请 关 注 ! 概述 这篇论文提出了一种名为视觉模块插件多模态检索模型(MARVEL),它学习了一个嵌入空间,用于对查询和多模态文档进行检索。MARVEL使用统一的编码器模型对查询和多模态文档进行编码,这有助于减少图像和文本之间的模态差异。具体来说,我们通过将视觉模块编码的图像特征作为输入,增强了训练有素的密集检索器T5-ANCE的图像理解能力。为了促进多模态检索任务,我们基于ClueWeb22数据集构建
………………………………