文章预览
今天给大家分享一篇阿里的文章,目前还在ICLR2025投稿中,真的很不错! 这篇论文提出了一种新的自适应规划代理OmniSearch,用于多模态检索增强生成(mRAG),并通过构建Dyn-VQA数据集展示了其在处理动态问题上的有效性。 论文: Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-Adaptive Planning Agent 链接: https://arxiv.org/pdf/2411.02937 研究背景 研究问题:这篇文章要解决的问题是如何有效地进行多模态检索增强生成(mRAG),以缓解多模态大型语言模型(MLLMs)中的“幻觉”问题。现有的启发式mRAG方法通常预定义了固定的检索过程,导致两个主要问题:非自适应检索查询和过载检索查询。 研究难点:该问题的研究难点包括:现有知识寻求视觉问答(VQA)数据集无法充分反映启发式mRAG在获取复杂知识时的刚性问题;动态问题的复杂性使得现
………………………………