文章预览
回顾 在上一文中我们使用 LlamaIndex 整合 智谱 AI 的 GLM-4 和 Embedding-3 模型一起构建 RAG 应用。 在上篇文章的最后,我们发现因为 Embedding-3 模型是同步调用的,所以从测试效果看比较慢。每一次运行都产生了大量的 http 同步请求。文末我说解决的办法可以在本地部署一个开源的 embedding 模型,这样就不会产生远程的 http 调用了,而且也比较省钱。 这是个办法,但实际上还有其他的好办法。 我们可以将 文档通过 embedding 模型产生的向量存储起来,这样相同的文档,只有在第一次 embedding 时会慢一些,再次检索时,可以快速地将已经保存好的向量查询出来使用。 本地文件存储 利用 LlamaIndex 的 API ,我们可以非常方便地把向量存储到本地文件,以下是一个例子,我把向量存储到项目的 index 目录下: def load_or_create_index () : # 检查是否存在有效的
………………………………