文章预览
项目简介 基于 GenAI + 多模态 LLM 实现的 GOT 580M 的端到端 OCR 模型正式发布! 支持处理复杂任务,如表格、公式甚至几何形状 BLEU 0.972 的分数,支持提取 Arxiv 公式、多页 OCR 以及 1024*1024 分辨率大小识别! 安装 我们的环境是cuda11.8+torch2.0.1 克隆此存储库并导航到 GOT 文件夹 git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git cd 'the GOT folder' 安装包 conda create -n got python=3.10 -y conda activate got pip install -e . 安装 Flash-Attention pip install ninja pip install flash-attn --no-build-isolation 演示 纯文本 OCR: python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr 格式化文本 OCR: python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type format 细粒度 OCR: python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file
………………………………