Ollama-OCR 只需几行代码，轻松实现高质量文字识别！

AI真好玩 · 公众号 · · 2024-11-25 16:00

文章预览

Llama 3.2-Vision 是一种多模态大型语言模型，有 11B 和 90B 两种大小，能够处理文本和图像输入，生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色，在多个行业基准测试中均优于现有的开源和闭源多模态模型。本文将介绍开源的 ollama-ocr [1] 工具，它默认使用本地运行的 Llama 3.2-Vision 视觉模型，可准确识别图像中的文字，同时保留原始格式。 https://github.com/bytefer/ollama-ocr Ollama-OCR 的特点使用 Llama 3.2-Vision 模型进行高精度文本识别保留原始文本格式和结构支持多种图像格式：JPG、JPEG、PNG 可定制的识别提示和模型 Markdown 输出格式选项 Llama 3.2-Vision 应用场景识别手写文本 OCR 识别图片问答配置环境安装 Ollama 在开始使用 Llama 3.2-Vision 之前，您需要安装 Ollama [2] ，这是一个支持在本地运行多模态模型的平台 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小易说钱 · 全球首枚！哪吒手镯纪念币！限量发行仅299枚！今晚预约！

2 天前

有方空间 · 北京招聘｜OPEN建筑事务所：商务及人事专员、项目建筑师、建筑师、出版媒介专员、实习生

2 天前

小易说钱 · 上架！5元、10元外汇券！比人民币还牛！限量开售！

3 天前

盖世汽车智能网联 · 小智一周要闻 | 广汽丰田与Momenta合作高阶智驾；阿维塔将首搭乾崑ADS 3.0

7 月前

张小北 · //@科学未来人:他的个人网站：网页链接-20241013164137

4 月前

老子道德经 · 曾国藩：自律者出众，放纵者出局

3 月前