专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

文档多模态RAG应该如何做?解析式orDocVQA式两类实现思路漫谈

老刘说NLP  · 公众号  ·  · 2024-11-14 15:24
    

文章预览

今天是2024年11月14日,星期四,北京,天气晴。 今天,我们来看看文档多模态RAG的工作,这个在之前的文章中也说过很多。 ‍ ‍ ‍ ‍ 通常,我们在调研一个工作时,最快的方式就是找一遍综述,如对于多模态RAG而言,对应的综述有: 《Retrieving multimodal information for augmented generation: A survey》(https://arxiv.org/abs/2303.10868);《RetrievalAugmented Generation for AI-Generated Content: A Survey》(https://arxiv.org/abs/2402.19473);《Retrieval-augmented generation for large language models: A survey》(https://arxiv.org/abs/2312.10997) 而针对文档这个场景,如果检索的对象,都是位于文档内部本身,那么就变成文档自身的多模态RAG。 仔细看了很多思路,老刘将文档多模态RAG分为两种路线,一种是 解析式文档多模态RAG (将一个文档切分为页面,然后再用版式识别的方式对文档进行各种模态元素进行分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览