文章预览
点击上方 蓝字 关注我们 在企业应用中,大量的数据以复杂的多模形态而存在,所以构建一个企业级的AI搜索或者RAG(检索增强生成)应用时,多模态数据特别是图像数据的索引与检索就是一个无法回避也是较复杂的问题,而借助嵌入向量的语义检索是常见方法。本文将探讨在广为所知的文本嵌入基础上,如何借助更强大的多模态嵌入,更简洁的组合多形态的企业信息,实现跨模态的检索应用。 文本嵌入的问题与不足 多模态嵌入模型 基于多模态嵌入的RAG实例 01 文本嵌入的问题与不足 当前有一些针对RAG应用中多模态内容的处理方法,即: 组合使用文本嵌入模型与多模态视觉大模型(VLM) 。借助视觉大模型将图片做“文本化“,生成图片的描述、摘要甚至关联的上下文,再借助文本嵌入模型实现这些信息的语义检索。 大致的处理流程在之前的文章
………………………………