专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【Python】微软开源Python Markdown转换工具

机器学习初学者  · 公众号  ·  · 2024-12-18 12:00
    

文章预览

分享一个microsoft开源的Python工具—— markitdown ,轻松 将各类文件转换为Markdown格式。 markitdown支持的文件格式 PDF(.pdf) PowerPoint(.pptx) Word(.docx) Excel(.xlsx) 图片(支持EXIF元数据和OCR识别) 音频(支持EXIF元数据和语音转录) HTML(包括对Wikipedia等特殊处理) 各种其他基于文本的格式(如csv、json、xml等) ZIP(遍历压缩包内容并逐一转换每个文件) markitdown使用 安装 pip install markitdown Python代码中使用小例子 from  markitdown  import  MarkItDown   # 导入MarkItDown类 markitdown = MarkItDown()   # 创建MarkItDown对象 result = markitdown.convert( "test.xlsx" )   # 转换test.xlsx为Markdown格式 print(result.text_content)   # 输出转换后的内容 Python代码中使用小例子(借助大模型) from  markitdown  import  MarkItDown from  openai  import  OpenAI client = OpenAI() md = MarkItDown(llm_client=client, l ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览