文章预览
概述 在上一篇文章中 如何用 30秒和 5 行代码写个 RAG 应用? ,我们介绍了如何利用 LlamaIndex 结合 Ollama 的本地大模型和在 Hugging Face 开源的 embedding 模型用几行 Python 代码轻松构建一个 RAG 应用。 从最终输出的结果上看是满意的,理论上是可以针对本地的知识库内容进行精准的问答。然而执行效率却不尽人意。原因是:无论 LLM 还是 embedding 模型的调用都是在本地,而我本地电脑的性能确属一般(几乎只能利用到 CPU 资源,没有 GPU 资源),这样就导致代码运行速度缓慢。 本文我们将介绍,如何通过调用国产大模型 DeepSeek 的 API 为我们的 RAG 应用提速,我们将把对本地 Ollama 的模型调用替换成对 DeepSeek API 的调用。 对比一下上文和本文的方案: 上文:LlamaIndex + Ollama(Qwen2:7b) + embedding(BAAI/bge-base-zh-v1.5) 本文:LlamaIndex + DeepSeek API + embedding(BAAI/bge-base-
………………………………