今天看啥  ›  专栏  ›  GitHubStore

Llama3.2 OCR

GitHubStore  · 公众号  ·  · 2024-12-06 19:05
    

文章预览

项目简介 「基于 Streamlit 和 Llama3.2 视觉模型开发的网页应用,可以通过简单的上传操作从图片中智能提取并结构化展示文本内容」 应用的技术架构分为以下几层: 1. 前端层( @streamlit ) - 页面布局和UI组件 - 用户交互处理 - 状态管理(session_state) 2. 业务逻辑层 - 文件上传处理(PIL) - 图像预处理 - OCR结果格式化 3. AI服务层( @ollama ) - Llama 3.2 Vision(11B)模型集成 - 文本提取处理 - 结果返回处理 数据流向: 用户上传图片 → 图片预处理 → Vision模型处理 → 结果格式化 → 页面展示 安装和设置 # setup ollama on linux curl -fsSL https://ollama.com/install.sh | sh # pull llama 3.2 vision model ollama run llama3. 2 -vision 安装依赖项 :确保安装了 Python 3.11 或更高版本。 pip install streamlit ollama 项目链接 https://github.com/patchy631/ai-engineering-hub/tree/main/llama-ocr 扫码 加入技术交流群,备注 「 开发语言- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览