专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

OCR研究不曾结束,它才刚刚开始——GOT-OCR-2.0模型开源!

PaperWeekly  · 公众号  · 科研  · 2024-09-11 12:34

主要观点总结

本文主要介绍了通用OCR模型的发展背景,以及针对AI-1.0时代和AI-2.0时代的OCR系统的缺点,提出了通用OCR模型(GOT)的概念和设计。文章详细描述了GOT模型的结构和训练方法,以及使用到的数据渲染工具。此外,还展示了GOT模型的实际效果,并提到了其局限性和未来的发展方向。最后,文章还介绍了投稿通道和投稿要求。

关键观点总结

关键观点1: 通用OCR模型的发展背景

介绍了OCR的发展历程,以及从AI-1.0时代到AI-2.0时代OCR系统的变化和挑战。

关键观点2: AI-1.0 OCR系统和LVLM OCR的缺点

详细阐述了AI-1.0 OCR系统的缺点,包括模块化独立、局部最优、维护成本大以及不通用等问题。同时指出了多模态大模型在pure OCR任务上的缺陷,包括image token数量过多导致的bottleneck问题,以及模型过大、迭代困难等问题。

关键观点3: GOT模型的设计

介绍了GOT模型的结构和训练方法,包括输入输出的通用性、模型结构、训练步骤等。

关键观点4: GOT模型的实际效果

通过可视化效果展示了GOT模型的实际效果,包括PDF image转markdown能力、双栏文本感知能力、自然场景及细粒度OCR能力等。

关键观点5: 投稿通道和要求

介绍了如何让更多的优质内容被更多人看到,包括通过PaperWeekly平台投稿的方式、稿件的基本要求和投稿通道。


文章预览

▲ 图1. 通用OCR模型须“通用” 论文标题: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 论文地址: https://arxiv.org/abs/2409.01704 项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0 OCR 一直是离落地最近的研究方向之一,是 AI-1.0 时代的技术结晶。到了以 LLM(LVLM)为核心的 AI-2.0 时代,OCR 成了多模大模型的一项基本能力,各家模型甚至有梭哈之势。 多模态大模型作为通用模型,总有种降维打击 OCR 模型的感觉。那么纯 OCR 的研究真的到头了吗?我们想说:当然没有!没准才刚刚开始。首先盘一下 AI-1.0 OCR 系统和 LVLM OCR 的缺点: 首先是 AI-1.0 流水线式的 OCR 系统,缺点不用多说,各个模块比较独立,局部最优,维护成本也大。最重要的是不通用,不同 OCR 任务需路由不同模型,不太方便。那么多模态大模型在 pure OCR 任务上有什么缺陷呢?我们认为有以下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览