用通俗的语言普及最新LLM进展! 欢迎大家推荐论文!
今天看啥  ›  专栏  ›  大语言模型论文跟踪

M3DocRAG:文档问答用哪个多模态大模型效果最好?

大语言模型论文跟踪  · 公众号  ·  · 2024-11-21 08:08
    

文章预览

M3DocRAG:多模态文档视觉问答 发布时间:2024 年 11 月 07 日 RAG M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding 文档视觉问答(DocVQA)管道用于回答来自文档的问题,具有广泛的应用。现有的方法侧重于使用多模态语言模型(MLM)处理单页文档,或者依赖于使用诸如光学字符识别(OCR)等文本提取工具的基于文本的检索增强生成(RAG)。然而,在现实场景中应用这些方法存在困难:(a)问题通常需要跨不同页面或文档的信息,而 MLM 无法处理许多长文档;(b)文档经常在诸如图形等视觉元素中具有重要信息,但文本提取工具会忽略它们。我们引入了 M3DocRAG,这是一种新颖的多模态 RAG 框架,能够灵活适应各种文档上下文(封闭域和开放域)、问题跳转(单跳和多跳)和证据模式(文本、图表、图形等)。M3DocRAG 使用多模态检索 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览