专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索

AINLP  · 公众号  ·  · 2024-10-23 10:25

文章预览

前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路 文档智能解析RAG一般流程 可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。 ColBERT 在此之前,先看一下ColBERT的架构,该架构包括: 查询编码器、文档编码器和后期交互机制 。 查询编码器 ColBERT的架构 假设有一个查询 ,其标记(token)为 ,处理步骤如下: 将 转换为 BERT 使用的 WordPiece 标记 (一种子词分词方法)。 在序列开头添加一个特殊的[Q]标记,紧随 BERT 的[CLS]标记之后,用于标识查询的开始。 如果查询长度不足 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览