专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

多模态RAG的4种模式简单实践及RAG切分的开源工具Chonkie

老刘说NLP · 公众号 · · 2024-11-15 21:35

主要观点总结

本文介绍了多模态RAG的四个简单动手实践脚本和关于RAG切分的开源工具Chonkie。多模态RAG分为解析式文档多模态RAG和DocVQA式文档多模态RAG。文章还提到了几个实践项目，包括GitHub上的相关项目和开源工具Chonkie的使用。通过动手实践，可以更好地理解RAG技术。

关键观点总结

关键观点1: 多模态RAG的四种简单动手实践脚本

包括Simple RAG、Vision RAG、ColPali RAG和Hybrid ColPali RAG，分别介绍了它们的特点和使用方式。

关键观点2: 开源工具Chonkie的介绍

Chonkie提供了多种RAG切分方式，包括TokenChunker、WordChunker、SentenceChunker、SemanticChunker和SDPMChunker。文章介绍了如何使用Chonkie进行文本切分，并提供了相关链接以供进一步了解细节和对比结论。

关键观点3: 关于多模态RAG技术的简要介绍

包括解析式文档多模态RAG和DocVQA式文档多模态RAG的基本概念和特点。

关键观点4: 社区介绍及相关资源

介绍了作者所在的社区，包括加入方式和相关资源，如每日早报、老刘说NLP历史线上分享等。

文章预览

今天是2024年11月15日，星期五，北京，天气晴。昨天，我们回顾了多模态RAG的一些理论方法，分为两类，一种是解析式文档多模态RAG (将一个文档切分为页面，然后再用版式识别的方式对文档进行各种模态元素进行分割、解析、提取，然后再嵌入、检索）；另一种是DocVQA式文档多模态RAG (将文档切分为页面图像，不再细分，然后根据页面图像级别进行检索，类似于docvqa)，而纸上得来终觉浅，绝知此事要躬行，我们来讲讲几个多模态RAG的四个简单动手实践脚本。另一个是关于RAG切分的开源工具Chonkie，对于RAG切分不熟悉的，可以跑一跑看看。坚持，总是会有收获的。一、多模态RAG的四个简单动手实践脚本至于动手环节，目前已经有一些可以实践的项目，如https://github.com/kyryl-opens-ml/vision-retrieval、Byaldi(https://github.com/AnswerDotAI/byaldi)、colpali(https://github. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博