专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OCR研究不曾结束，它才刚刚开始——GOT-OCR-2.0模型开源！

PaperWeekly · 公众号 · 科研 · 2024-09-11 12:34

主要观点总结

本文主要介绍了通用OCR模型的发展背景，以及针对AI-1.0时代和AI-2.0时代的OCR系统的缺点，提出了通用OCR模型（GOT）的概念和设计。文章详细描述了GOT模型的结构和训练方法，以及使用到的数据渲染工具。此外，还展示了GOT模型的实际效果，并提到了其局限性和未来的发展方向。最后，文章还介绍了投稿通道和投稿要求。

关键观点总结

关键观点1: 通用OCR模型的发展背景

介绍了OCR的发展历程，以及从AI-1.0时代到AI-2.0时代OCR系统的变化和挑战。

关键观点2: AI-1.0 OCR系统和LVLM OCR的缺点

详细阐述了AI-1.0 OCR系统的缺点，包括模块化独立、局部最优、维护成本大以及不通用等问题。同时指出了多模态大模型在pure OCR任务上的缺陷，包括image token数量过多导致的bottleneck问题，以及模型过大、迭代困难等问题。

关键观点3: GOT模型的设计

介绍了GOT模型的结构和训练方法，包括输入输出的通用性、模型结构、训练步骤等。

关键观点4: GOT模型的实际效果

通过可视化效果展示了GOT模型的实际效果，包括PDF image转markdown能力、双栏文本感知能力、自然场景及细粒度OCR能力等。

关键观点5: 投稿通道和要求

介绍了如何让更多的优质内容被更多人看到，包括通过PaperWeekly平台投稿的方式、稿件的基本要求和投稿通道。

文章预览

▲ 图1. 通用OCR模型须“通用” 论文标题： General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 论文地址： https://arxiv.org/abs/2409.01704 项目地址： https://github.com/Ucas-HaoranWei/GOT-OCR2.0 OCR 一直是离落地最近的研究方向之一，是 AI-1.0 时代的技术结晶。到了以 LLM（LVLM）为核心的 AI-2.0 时代，OCR 成了多模大模型的一项基本能力，各家模型甚至有梭哈之势。多模态大模型作为通用模型，总有种降维打击 OCR 模型的感觉。那么纯 OCR 的研究真的到头了吗？我们想说：当然没有！没准才刚刚开始。首先盘一下 AI-1.0 OCR 系统和 LVLM OCR 的缺点：首先是 AI-1.0 流水线式的 OCR 系统，缺点不用多说，各个模块比较独立，局部最优，维护成本也大。最重要的是不通用，不同 OCR 任务需路由不同模型，不太方便。那么多模态大模型在 pure OCR 任务上有什么缺陷呢？我们认为有以下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博