专栏名称: AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

端到端的开源OCR模型：GOT-OCR-2.0，支持场景文本、文档、乐谱、图表、数学公式等内容识别！

AIGC Studio · 公众号 · · 2024-10-24 00:00

文章预览

今天给大家分享一个端到端的开源 OCR 模型，号称 OCR 2.0！支持场景文本、文档、乐谱、图表、数学公式等内容识别，拿到了 BLEU 0.972 高分。从给出的演示图来看，一些非常复杂的数学公式都能正确的识别，颇为强大。模型大小仅 1.43GB，感兴趣的小伙伴可以试试。 OCR一直是离落地最近的研究方向之一，是AI-1.0时代的技术结晶。到了以LLM（LVLM）为核心的AI-2.0时代，OCR成了多模大模型的一项基本能力，各家模型甚至有梭哈之势。多模态大模型作为通用模型，总有种降维打击OCR模型的感觉。那么纯OCR的研究真的到头了吗？我们想说：当然没有！没准才刚刚开始。首先盘一下AI-1.0 OCR系统和LVLM OCR的缺点：首先是AI-1.0流水线式的OCR系统，缺点不用多说，各个模块比较独立，局部最优，维护成本也大。最重要的是不通用，不同OCR任务需路由不同模型，不太方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博