最近有个朋友跟我讨论技术问题，他在用个第三方的OCR的服务，用来-20240823130616

宝玉xp · 微博 · AI · 2024-08-23 13:06

文章预览

2024-08-23 13:06 本条微博链接最近有个朋友跟我讨论技术问题，他在用个第三方的OCR的服务，用来提取发票上的文字为结构化数据。但收费较高，想自己实现一套，试了开源的PaddleOCR，识别可以，但是无法转成结构化的数据。我建议他试试多模态的LLM，比如Gemini 1.5 Flash，用来做 OCR 效果非常好，可以在 Prompt 里面定制要输出的格式，并且成本极低。参考提示词： *** Extract text from the provided image and organize it into a structured JSON f ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 《纽约客：注意力之争【译】》在这个干扰不断的时代，我们如何守-20250213021500

20 小时前

爱可可-爱生活 · //@爱可可-爱生活：欢迎参与～-20250212082137

昨天

量子位 · 推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

昨天

爱可可-爱生活 · 【Moonshot-data：为AI模型评估提供一站式解决方案。-20250211213047

2 天前

宝玉xp · 传闻 Anthropic 本周会发布 Claude 4，也是类似-20250211112046

2 天前

中国音乐ChineseMusic · 程俏俏｜音乐影像志的历史、类型及其应用（讲座精彩长视频）

3 月前