主要观点总结
本文主要介绍了通用OCR模型的发展背景,以及针对AI-1.0时代和AI-2.0时代的OCR系统的缺点,提出了通用OCR模型(GOT)的概念和设计。文章详细描述了GOT模型的结构和训练方法,以及使用到的数据渲染工具。此外,还展示了GOT模型的实际效果,并提到了其局限性和未来的发展方向。最后,文章还介绍了投稿通道和投稿要求。
关键观点总结
关键观点1: 通用OCR模型的发展背景
介绍了OCR的发展历程,以及从AI-1.0时代到AI-2.0时代OCR系统的变化和挑战。
关键观点2: AI-1.0 OCR系统和LVLM OCR的缺点
详细阐述了AI-1.0 OCR系统的缺点,包括模块化独立、局部最优、维护成本大以及不通用等问题。同时指出了多模态大模型在pure OCR任务上的缺陷,包括image token数量过多导致的bottleneck问题,以及模型过大、迭代困难等问题。
关键观点3: GOT模型的设计
介绍了GOT模型的结构和训练方法,包括输入输出的通用性、模型结构、训练步骤等。
关键观点4: GOT模型的实际效果
通过可视化效果展示了GOT模型的实际效果,包括PDF image转markdown能力、双栏文本感知能力、自然场景及细粒度OCR能力等。
关键观点5: 投稿通道和要求
介绍了如何让更多的优质内容被更多人看到,包括通过PaperWeekly平台投稿的方式、稿件的基本要求和投稿通道。
文章预览
▲ 图1. 通用OCR模型须“通用” 论文标题: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 论文地址: https://arxiv.org/abs/2409.01704 项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0 OCR 一直是离落地最近的研究方向之一,是 AI-1.0 时代的技术结晶。到了以 LLM(LVLM)为核心的 AI-2.0 时代,OCR 成了多模大模型的一项基本能力,各家模型甚至有梭哈之势。 多模态大模型作为通用模型,总有种降维打击 OCR 模型的感觉。那么纯 OCR 的研究真的到头了吗?我们想说:当然没有!没准才刚刚开始。首先盘一下 AI-1.0 OCR 系统和 LVLM OCR 的缺点: 首先是 AI-1.0 流水线式的 OCR 系统,缺点不用多说,各个模块比较独立,局部最优,维护成本也大。最重要的是不通用,不同 OCR 任务需路由不同模型,不太方便。那么多模态大模型在 pure OCR 任务上有什么缺陷呢?我们认为有以下
………………………………