专栏名称: GitHub好项目
GitHub上好项目分享;分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具,为 GitHub 开发者提供优质编程资讯。
目录
相关文章推荐
今天看啥  ›  专栏  ›  GitHub好项目

一款利用人工智能(AI)和机器学习(ML)技术进行 PDF 内容识别和转换的工具

GitHub好项目  · 公众号  ·  · 2024-09-30 07:12

文章预览

大家好,我是GitHub好项目君,每天分享GitHub上的好项目 主要分享GitHub上有趣、有意义、重要的项目 Marker 快速准确地将 PDF 转换为 markdown 源代码: http://www.gitpp.com/kyxm/marker Marker 是一款利用人工智能(AI)和机器学习(ML)技术进行 PDF 内容识别和转换的工具。它由 VikParuchuri 开发,能够快速而准确地将 PDF、EPUB 和 MOBI 文件转换为 Markdown 格式。Marker 相比其他工具如 nougat 快 10 倍,在大多数文档上更准确,且错误风险较低。 Marker它到底能对PDF做什么: 能够很好的识别PDF的布局设置,进而去除掉PDF中一些无用的内容,例如页眉页脚等; 能够识别PDF中绝大部分的公式图片,并且转换成Latex格式; 能够对内容进行格式化识别,例如保持段落、标题、列表等内容的布局; 能够很好的识别各种类型的表格,包括跨页的表格、合并单元格、非标准表格等等; 支 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览