注册登录

专栏名称: GitHubStore

分享有意思的开源项目

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

经视直播 · 空姐站机翼上自拍？网友怒斥，航空公司回应 · 7 小时前

经视直播 · 一个多月减重48斤！31岁武汉医生分享经验…… · 昨天

经视直播 · 医院员工上班期间玩游戏？医院：已停职待岗 · 2 天前

最红安 · 在红安，圆满举行！ · 3 天前

最红安 · 在红安，圆满举行！ · 3 天前

今天看啥 › 专栏 › GitHubStore

超高精度将图像或 PDF 转换为 Markdown 或 JSON

GitHubStore · 公众号 · · 2024-11-09 09:06

文章预览

项目简介超高精度将图像或 PDF 转换为 Markdown 文本或 JSON 结构化文档，包括表格数据、数字或数学公式。该 API 由 FastAPI 构建，同时借助 Celery 实现异步任务处理。还使用 Redis 存储和缓存 OCR 结果，以提高效率。特征无需云/外部依赖项即可满足您的所有需求：基于 PyTorch 的 OCR（标记）+ Ollama 通过 docker-compose 进行运输和配置，不会将数据发送到您的开发/服务器环境之外，使用不同的 OCR 策略（包括标记、 surya-ocr或tessereact）以非常高的准确度将 PDF 转换为 Markdown 使用 Ollama 支持的模型（例如 LLama 3.1）将 PDF 转换为 JSON LLM改善 OCR 结果 LLama 非常擅长修复 OCR 文本中的拼写和文本问题删除 PII 该工具可用于从 PDF 中删除个人身份信息 - 请参阅 examples 使用[Celery]进行分布式队列处理 ( ) 使用 Redis 进行缓存 - 在LLM处理之前可以轻松缓存 OCR 结果用于发送 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

经视直播 · 空姐站机翼上自拍？网友怒斥，航空公司回应

7 小时前

经视直播 · 一个多月减重48斤！31岁武汉医生分享经验……

昨天

经视直播 · 医院员工上班期间玩游戏？医院：已停职待岗

2 天前

最红安 · 在红安，圆满举行！

3 天前

最红安 · 在红安，圆满举行！

3 天前

快消品网 · 【零售】激增至13.9倍，客流暴涨！胖东来助力永辉超市郑州首店大变身

8 月前

音频应用 · Image Line 发布 FL Studio 2024，新的合成器和效果、新 AI 功能以及 FL Cloud 更新

7 月前

大皖新闻 · 哪吒在蚌埠闹的海？该地“哪吒文旅小镇”已开始初步规划，内容有→

1 周前

共同体Community · 宣布了！免费

3 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号