文章预览
\x26amp;quot;General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model\x26amp;quot; 是一篇探讨光学字符识别(OCR)技术未来发展的研究论文。文章提出了一种新的OCR模型——GOT(General OCR Theory),旨在推动OCR技术向2.0版本迈进。GOT模型是一个统一的、端到端的模型,包含高压缩率的编码器和长上下文的解码器,能够处理各种人造光学信号,如普通文本、数学/化学公式、表格、图表、乐谱甚至几何形状等。 GOT模型的特点包括: 1. **端到端的架构**:与传统的多模块OCR系统相比,GOT模型提供了一个统一的架构,减少了维护成本,使得整个系统更易于掌握和使用。 2. **低训练和推理成本**:GOT模型专注于光学字符的强感知和识别,而不是像大型视觉语言模型(LVLMs)那样侧重于推理任务,因此模型参数数量合理,训练和推理成本较低。 3. **通用性**:GOT模型能够识别
………………………………