文章预览
分享一个microsoft开源的Python工具—— markitdown ,轻松 将各类文件转换为Markdown格式。 markitdown支持的文件格式 PDF(.pdf) PowerPoint(.pptx) Word(.docx) Excel(.xlsx) 图片(支持EXIF元数据和OCR识别) 音频(支持EXIF元数据和语音转录) HTML(包括对Wikipedia等特殊处理) 各种其他基于文本的格式(如csv、json、xml等) ZIP(遍历压缩包内容并逐一转换每个文件) markitdown使用 安装 pip install markitdown Python代码中使用小例子 from markitdown import MarkItDown # 导入MarkItDown类 markitdown = MarkItDown() # 创建MarkItDown对象 result = markitdown.convert( "test.xlsx" ) # 转换test.xlsx为Markdown格式 print(result.text_content) # 输出转换后的内容 Python代码中使用小例子(借助大模型) from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(llm_client=client, l
………………………………