专栏名称: 气象学家
【气象学家】公众号平台为您解读最新气象科研进展、分享气象实用编程技巧、追踪气象即时资讯。欢迎加入气象AI和Python交流群以及气象博士群!与5W+的专业人士一起交流互动!
今天看啥  ›  专栏  ›  气象学家

使用GPT-4o将 PDF 解析为 Markdown 的开源工具,实现pdf转word完美转档

气象学家  · 公众号  ·  · 2024-07-02 14:30

文章预览

  第一时间获取气象科研资讯 『 气象学家 』 公众号 交流群 加入 仅 293 行代码,它可以几乎完美地解析任何 PDF 文件,包括排版、数学公式、表格、图片和图表等内容,平均每页成本为 $0.013 ,如果有免费的api,那就是零成本。 工作原理:使用 PyMuPDF 库,首先对 PDF 进行解析出所有非文本区域,并做好标记 然后使用 GPT-4o 进行解析,得到 markdown 文件。 项目名称:gptpdf [1] 主程序 def parse_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False, gpt_worker=1): """ 解析PDF文件到markdown文件 :param pdf_path: pdf文件路径 :param output_dir: 输出目录。存储所有的图片和markdown文件 :param api_key: OpenAI API Key(可选)。如果未提供,则使用OPENAI_API_KEY环境变量。 :param base_url: OpenAI Base URL。(可选)。如果未提供,则使用OPENAI_BASE_URL环境变量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览