专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

M3DocRAG:文档问答用哪个多模态大模型效果最好?

深度学习与NLP  · 公众号  ·  · 2024-11-22 00:00

文章预览

1. 文档视觉问答现状 文档视觉问答(DocVQA)是通过解读文档图像所含信息来回答文本问题的多模态任务。精准高效地回答众多冗长且布局繁杂的文档中的问题,会给金融、医疗保健和法律等诸多领域带来极大益处,在这些领域,文档AI助手能够简化大量文档的日常处理,提升生产力,助力更快、更明智的决策。 现有的DocVQA任务,主要有以下两种方案: • 1.聚焦于单页文档的视觉问答,如下图。 • 2.从文档中提取文本(比如OCR或PDF文本提取)并运用检索增强生成(RAG),即检索模型找出相关段落,语言模型依据段落回答问题(如下图)。 但是,这两类方案在真实文档理解场景中运用存在以下两方面问题: • 1.问题往往需要跨越不同页面或文档的信息,现有的VQA方法难以处理众多长文档; • 2.部分文档具有复杂的视觉格式,像表格、图表和混合布 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览