文章预览
今天是2024年11月14日,星期四,北京,天气晴。 今天,我们来看看文档多模态RAG的工作,这个在之前的文章中也说过很多。 通常,我们在调研一个工作时,最快的方式就是找一遍综述,如对于多模态RAG而言,对应的综述有: 《Retrieving multimodal information for augmented generation: A survey》(https://arxiv.org/abs/2303.10868);《RetrievalAugmented Generation for AI-Generated Content: A Survey》(https://arxiv.org/abs/2402.19473);《Retrieval-augmented generation for large language models: A survey》(https://arxiv.org/abs/2312.10997) 而针对文档这个场景,如果检索的对象,都是位于文档内部本身,那么就变成文档自身的多模态RAG。 仔细看了很多思路,老刘将文档多模态RAG分为两种路线,一种是 解析式文档多模态RAG (将一个文档切分为页面,然后再用版式识别的方式对文档进行各种模态元素进行分
………………………………