专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

使用InternVL、LMDeploy和GTE搭建多模态RAG系统

魔搭ModelScope社区  · 公众号  ·  · 2024-07-23 22:01

文章预览

如何将视觉大模型(VLM)与 多模态RAG 结合起来,创建服装搜索和搭配推荐!本文展示了InternVL模型在分析服装图像和提取颜色、款式和类型等关键特征方面的强大功能。 InternVL2是 国内首个在MMMU(多学科问答)上突破60的模型, 堪称开源多模态大模型性能新标杆。 基于视觉大模型的功能,本文采用自定义匹配算法和 RAG 技术在我们的知识库中搜索与已识别特征互补的项目。该算法考虑了颜色兼容性和样式一致性等因素,为用户提供合适的建议。 使用VLM+ RAG(检索增强生成)的组合具有以下几个优点: 情境理解:VLM可以分析输入图像并理解情境,例如所描绘的对象、场景和活动。这允许在各个领域(OCR,道路交通,商品图片)提供更准确、更相关的建议或信息。  丰富的知识库:RAG 将 VLM的生成功能与检索组件相结合,该组件可以访问不同领域的大量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览