专栏名称: 非法加冯
云计算泥石流,数据库老司机。
今天看啥  ›  专栏  ›  非法加冯

如何在数据库中直接检索PDF

非法加冯  · 公众号  ·  · 2025-02-11 15:39
    

文章预览

知识库依然是目前AI在企业落地的首要场景。而要做好知识库,少不了处理各种文档 —— 最重要最常见的文档类型就是 PDF。 不过,检索 PDF 算是个麻烦事儿。而得益于 PostgreSQL 强大的可扩展性,pgpdf 扩展可以帮你做到这一点:它提供了一种新的 PDF 数据类型,并允许用户在数据库中直接使用 SQL 读取 PDF,解析内容并提取文本。 当然,PGPGDF 不仅可以访问本地文件,你还可以将此扩展与 pg_net / pg_http / pg_curl 使用,从各种地方在线读取 PDF,然后将其解析为文本。 然后,你还可以进一步使用 vchord_bm25, pgroonga, zhparser 进行分词,或者直接将其丢入大模型进行 embedding 为向量,使用 pgvector 进行存储与检索。 这意味着, 你可以只用一个数据库就实现包含外部 PDF 文档在内的企业知识库特性! 关于PGPDF PGPDF 的作者是 Florents Tselai,一位富有热情与洞察的希腊 PG ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览