今天看啥  ›  专栏  ›  逛逛GitHub

推荐 4 个最近 牛逼哄哄 的开源项目

逛逛GitHub  · 公众号  ·  · 2024-10-23 16:50

文章预览

01 本地 OCR 开源神器 Zerox 是一个 基于 GPT-4o-mini 的零样本 OCR 项目,旨在将 PDF、图像等文件转换为 Markdown 格式 。该项目通过将文件页面转化为图像,然后利用视觉模型进行 OCR 处理,并生成结构化的文本。 它支持多种文件格式,并 提供 Python 和 Node.js SDK 。Zerox 可以用于文档格式复杂、包含表格和图表的场景。其主要特点包括支持并发处理、多模型兼容性及格式保持功能。 开源地址:http s: //github. com /getomni-ai/zerox 02 Microsoft Edge 的在线文字转语音服务 edge-tts 是一个 Python 模块,允许用户 通过 Python 代码使用 Microsoft Edge 的在线文字转语音服务,而不需要 Microsoft Edge、Windows 或 API 密钥。 用户可以通过命令行或代码生成并播放语音文件,并且支持更改语音、语速、音量和音调。 该模块非常适合文本转语音(TTS)的应用场景,特别是在不依赖特定操作系 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览