文章预览
今天是2024年10月11日,星期五,北京,天气晴。 我们今天来看继续看RAG的两个工作,一个是一个面向PDF文档的RAG方案,可以理解为混合多模态检索,另一个是关于RAG与类COT的结合进展CoV-RAG。 两个工作,都很工程化,算法成分不多 ,也 很粗糙,但也看看。 供大家参考并思考。 一、一个面向PDF文档的多模态RAG方案 看到一个工作,《PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling》(https://arxiv.org/pdf/2410.05970,https://github.com/yh-hust/PDF-Wukong),处理包含文本和图像的长PDF文档,如学术论文。 其标题取得很宏大,实际上就是一个多模态RAG。 可以看几个点: 一个是当前处理长文档的代表模型。 另一个是PDF-WuKong架构。 1、架构 PDF-WuKong的架构包括文档解析器、稀疏采样器和模型。文档解析器将PDF文档转换为交错的文本块
………………………………