今天看啥  ›  专栏  ›  逛逛GitHub

一个端到端的 OCR 模型,炸裂开源!

逛逛GitHub  · 公众号  ·  · 2024-09-18 12:59
    

文章预览

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、 乐谱、几何图形 等多种内容,极大地拓宽了 OCR 技术的应用范围。 模型大小仅 1.43GB,下面列出来在各个场景的效果,感兴趣的往下看。 🚀 项目特点 ① 多语言、多模态识别 :GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。 ② 多样化输入输出 :支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。 ③ 长文本处理能力 : 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。 ④ 高级功能 : 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。 如下是 GO ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览