注册登录

专栏名称: 大语言模型论文跟踪

用通俗的语言普及最新LLM进展！欢迎大家推荐论文！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

新疆949交通广播 · 正月初二，不能洗衣服？ · 4 小时前

新疆949交通广播 · 确认了！2月5日起上涨→ · 昨天

新疆949交通广播 · 降雪天气又要来了！看看你那里会下雪吗？ · 昨天

新疆949交通广播 · 微信拜年红包有新玩法 · 4 天前

今天看啥 › 专栏 › 大语言模型论文跟踪

M3DocRAG：文档问答用哪个多模态大模型效果最好？

大语言模型论文跟踪 · 公众号 · · 2024-11-21 08:08

文章预览

M3DocRAG：多模态文档视觉问答发布时间：2024 年 11 月 07 日 RAG M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding 文档视觉问答（DocVQA）管道用于回答来自文档的问题，具有广泛的应用。现有的方法侧重于使用多模态语言模型（MLM）处理单页文档，或者依赖于使用诸如光学字符识别（OCR）等文本提取工具的基于文本的检索增强生成（RAG）。然而，在现实场景中应用这些方法存在困难：（a）问题通常需要跨不同页面或文档的信息，而 MLM 无法处理许多长文档；（b）文档经常在诸如图形等视觉元素中具有重要信息，但文本提取工具会忽略它们。我们引入了 M3DocRAG，这是一种新颖的多模态 RAG 框架，能够灵活适应各种文档上下文（封闭域和开放域）、问题跳转（单跳和多跳）和证据模式（文本、图表、图形等）。M3DocRAG 使用多模态检索 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新疆949交通广播 · 正月初二，不能洗衣服？

4 小时前

新疆949交通广播 · 确认了！2月5日起上涨→

昨天

新疆949交通广播 · 降雪天气又要来了！看看你那里会下雪吗？

昨天

新疆949交通广播 · 微信拜年红包有新玩法

4 天前

微万州 · 突然宣布：终止营业！

7 月前

中科院古脊椎所 · 【科研速报】东亚晚中新世非洲艾虎亚科（鼬科）研究进展

4 月前

检察日报正义网 · 草动三江色林占万壑晴——明朝诗歌作品与环境保护立法

1 月前

募格学术 · 年仅30岁，博士生杜梅同学不幸去世，遗书让人泪目

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号