今天看啥  ›  专栏  ›  PaperAgent

告别文档解析,VisRAG带飞RAG,性能飙升37%

PaperAgent  · 公众号  ·  · 2024-10-25 11:17

文章预览

当前的RAG系统仅基于文本,这使得无法利用在现实世界 多模态文档 中扮演关键角色的视觉信息,如 布局和图像 。 TextRAG与VisRAG在最终生成准确性上的对比。 在TextRAG中,解析后的文本作为检索和生成过程的基础。相比之下,VisRAG直接利用原始文档图像,通过使用基于VLM的检索器和生成器来实现。 VisRAG :一个基于VLM的RAG框架,它通过直接将文档图像嵌入到VLM中来检索和生成信息,从而 绕过了传统的文本解析阶段 。VisRAG包括两个主要组件:VisRAG-Ret(检索器)和VisRAG-Gen(生成器)。 基于文本的RAG(左)与基于视觉的RAG(右) 。传统的基于文本的RAG(TextRAG)依赖于解析后的文本进行检索和生成,这会丢失多模态文档中的视觉信息。我们的基于视觉的RAG(VisRAG)使用基于VLM的检索器和生成器直接处理文档页面的图像,从而保留原始页面中的所有信息 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览