专栏名称: 奇舞精选
《奇舞精选》是由奇舞团维护的前端技术公众号。除周五外,每天向大家推荐一篇前端相关技术文章,每周五向大家推送汇总周刊内容。
今天看啥  ›  专栏  ›  奇舞精选

JavaScript 提取 PDF、Word 文档图片,非常简单,别再头大了!

奇舞精选  · 公众号  ·  · 2025-03-13 18:00
    

文章预览

最近接了个需求,要求就是基于文档的 AI 问答,文档里面最常见的就是 PDF 和 Word 文档了,里面的内容无非就是文本和图片了,目前是没有直接接收这种文档的模型的,那么我们需要经过一些处理来进行。 首先我们要先把图片和文本来进行处理,我这边的处理方式就是图片调用图片的模型来识别图片信息,将返回的信息和文档的文本作为后面的问答的前置 prompt,至于这些 prompt 就可以根据不同的需求来做不同处理了,这里不多解释。 在接下来,我们将使用 NextJs 项目作为例子进行讲解,后面的内容跟框架依性不是很大,vue,astro 等项目都可以直接拿来使用。 提取 PDF 中的图片 PDF.js  是一个开源的 JavaScript 库,用于在网页上直接显示和渲染 PDF 文件。它将 PDF 文件解析为 HTML5 元素,使得浏览器可以无插件地加载和查看 PDF 文档。PDF.js 支持多种功能, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览