专栏名称: 活水智能
AI生产力专家。致力于通过AI教育、软件及社群提高知识工作者的生产力。 官网:huoshuiai.com
今天看啥  ›  专栏  ›  活水智能

算法打败文盲,我用向量数据库与RAG,做了个“鲁迅没说过”

活水智能  · 公众号  ·  · 2024-12-17 08:42
    

文章预览

鲁迅说,“世上本没有路,走的人多了,也便成了路。”。 鲁迅说,“我家墙外有两株树,一株是枣树,还有一株也是枣树。” 鲁迅还说,“猛兽总是独行,牛羊才成群结对。” 网络上流传着鲁迅说过的各种名言,我们不禁怀疑,鲁迅到底说没说?原文是什么样的,出处又是哪里?想回答这个问题,最好的办法就是搜索原文。但是,使用传统搜索方式,错了一个字可能就搜索不到,不如试试语义搜索吧。 我们可以把鲁迅作品集向量化,储存到向量数据库中。然后搜索某条据说是鲁迅说过的话,最后通过大模型组织语言输出回答,告诉我们鲁迅有没有说过这句话。如果有,再让它附上原文和出处。这个过程,就是 RAG(Retrieval-Augmented Generation,检索增强生成)。 而对于较长的本文,直接向量化会导致信息缺失,需要把文本分割成多个块,分别向量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览