专栏名称: 程序员成长指北
专注 Node.js 技术栈分享,从 前端 到 Node.js 再到 后端数据库,祝您成为优秀的高级 Node.js 全栈工程师。一个有趣的且乐于分享的人。座右铭:今天未完成的,明天更不会完成。
今天看啥  ›  专栏  ›  程序员成长指北

JavaScript 提取 PDF、Word 文档图片,非常简单,别再头大了!

程序员成长指北  · 公众号  ·  · 2025-03-17 10:27
    

文章预览

点击上方  程序员成长指北 ,关注公众号 回复 1 ,加入高级Node交流群 最近接了个需求,要求就是基于文档的 AI 问答,文档里面最常见的就是 PDF 和 Word 文档了,里面的内容无非就是文本和图片了,目前是没有直接接收这种文档的模型的,那么我们需要经过一些处理来进行。 首先我们要先把图片和文本来进行处理,我这边的处理方式就是图片调用图片的模型来识别图片信息,将返回的信息和文档的文本作为后面的问答的前置 prompt,至于这些 prompt 就可以根据不同的需求来做不同处理了,这里不多解释。 在接下来,我们将使用 NextJs 项目作为例子进行讲解,后面的内容跟框架依性不是很大,vue,astro 等项目都可以直接拿来使用。 提取 PDF 中的图片 PDF.js  是一个开源的 JavaScript 库,用于在网页上直接显示和渲染 PDF 文件。它将 PDF 文件解析为 HTML5 元 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览