今天看啥  ›  专栏  ›  GitHubStore

微软开源将各种文件格式转换为 markdown 格式开源工具:markitdown

GitHubStore  · 公众号  ·  · 2024-12-18 14:46
    

文章预览

项目简介 MarkItDown 是一个用于将各种文件转换为 Markdown 的实用程序(例如,用于索引、文本分析等)。它支持: PDF PowerPoint   微软幻灯片软件 Word   Excel 图像(EXIF 元数据和 OCR) 音频(EXIF 元数据和语音转录) HTML   超文本标记语言 基于文本的格式(CSV、JSON、XML) ZIP 文件(迭代内容) 要安装 MarkItDown,请使用 pip:  pip install markitdown  。或者,您可以从源安装它:  pip install -e . 用法 命令行 markitdown path-to-file .pdf > document .md 您还可以管道内容: cat path-to-file.pdf | markitdown Python API Python 中的基本用法: from markitdown import MarkItDown md = MarkItDown() result = md.convert( "test.xlsx" ) print(result.text_content) 要使用大型语言模型进行图像描述,请提供  llm_client  和  llm_model  : from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(llm_client=client, llm_ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览