文章预览
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs 模型: https://huggingface.co/nvidia/MM-Embed 论文: https://arxiv.org/abs/2411.02571 MM-Embed 是NVIDIA开发的一种多模态大型语言模型(MLLMs),旨在推动信息检索技术的发展,使其能够处理更为广泛的搜索场景,即所谓的通用多模态检索。 这种检索不仅支持多种模态(如文本和图像)的查询和检索结果,还能够适应多样化的用户指导任务。研究中,通过对MLLM进行微调,使其在理解包含文本和图像的复杂查询方面表现出色,但在跨模态检索任务中存在模态偏差的问题。为此,研究者提出了模态感知硬负例挖掘方法,并采用持续微调策略来提升模型的文本检索能力,同时保持其多模态检索的能力。 MM-Embed 模型在多模态检索基准M-BEIR上取得了突破性的性能,超越了现有的最先进文本检索模型NV-Embed-v1,并在MTEB文本检索基
………………………………