告别文档解析，VisRAG带飞RAG，性能飙升37%

深度学习与NLP · 公众号 · · 2024-10-26 01:17

文章预览

当前的RAG系统仅基于文本，这使得无法利用在现实世界多模态文档中扮演关键角色的视觉信息，如布局和图像。 TextRAG与VisRAG在最终生成准确性上的对比。在TextRAG中，解析后的文本作为检索和生成过程的基础。相比之下，VisRAG直接利用原始文档图像，通过使用基于VLM的检索器和生成器来实现。 VisRAG ：一个基于VLM的RAG框架，它通过直接将文档图像嵌入到VLM中来检索和生成信息，从而绕过了传统的文本解析阶段。VisRAG包括两个主要组件：VisRAG-Ret（检索器）和VisRAG-Gen（生成器）。基于文本的RAG（左）与基于视觉的RAG（右）。传统的基于文本的RAG（TextRAG）依赖于解析后的文本进行检索和生成，这会丢失多模态文档中的视觉信息。我们的基于视觉的RAG（VisRAG）使用基于VLM的检索器和生成器直接处理文档页面的图像，从而保留原始页面中的所有信息 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国企业家杂志 · 杨植麟还没有解开月之暗面的局

昨天

清华经管学院职业发展中心 · 招聘 | 中国远洋海运集团2025年管培生招聘

昨天

HR新逻辑 · 提人效！提人效！提人效！

4 天前

HR新逻辑 · 第四届HR赋能实战大会：战略解码+科学分钱+奖金分配！

4 天前

高绩效HR · 精品内训 | 基于战略落地的目标和绩效管理

6 天前

科技每日推送 · 二手空调、捷安特成“涉黄暗号”？闲鱼回应：加大力度整改网络

3 月前

生物学霸 · 如何科学地把自己培养成学术带头人

1 月前