今天看啥  ›  专栏  ›  PaperAgent

英伟达又来卷多模态向量,MM-Embed强势登顶!

PaperAgent  · 公众号  ·  · 2024-11-11 09:00

文章预览

英伟达于近期开源了 通用 多模态检索技术 MM-Embed ,它在涵盖多个领域和任务的多模态检索基准 M-BEIR 上实现了最先进的性能,同时也在 MTEB 检索基准上超越了先进的文本检索模型 NV-Embed-v1, 排名Top5。 主要评测结果:报告了所有数据集的R@5,除了Fashion200K和FashionIQ,报告了R@10。单模态查询和多模态查询的任务分别表示任务1-5和6-8。对于MTEB文本检索,报告了从15个检索任务中平均得出的nDCG@10。 利用多模态大型语言模型(MLLMs)来实现通用多模态检索: 通用多模态检索的说明 ,支持包含指令、查询和多模态格式文档的多样化任务。在这项工作中,探索微调基于MLLM(多语言大型模型)的通用 多模态检索器MM-Embed ,并提示MLLM进行重新排序。 目标 :将用户查询和任务指令映射到与多模态文档相同的语义空间,以便进行k-最近邻搜索。 微调过程 :使用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览