【GOT：通用光学字符识别】

计算机视觉之路 · 公众号 · · 2024-09-18 13:51

文章预览

\x26amp;quot;General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model\x26amp;quot; 是一篇探讨光学字符识别（OCR）技术未来发展的研究论文。文章提出了一种新的OCR模型——GOT（General OCR Theory），旨在推动OCR技术向2.0版本迈进。GOT模型是一个统一的、端到端的模型，包含高压缩率的编码器和长上下文的解码器，能够处理各种人造光学信号，如普通文本、数学/化学公式、表格、图表、乐谱甚至几何形状等。 GOT模型的特点包括： 1. **端到端的架构**：与传统的多模块OCR系统相比，GOT模型提供了一个统一的架构，减少了维护成本，使得整个系统更易于掌握和使用。 2. **低训练和推理成本**：GOT模型专注于光学字符的强感知和识别，而不是像大型视觉语言模型（LVLMs）那样侧重于推理任务，因此模型参数数量合理，训练和推理成本较低。 3. **通用性**：GOT模型能够识别 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

插座APP · 《小巷人家》大结局！看完这部热播剧终于明白：一个家庭最大的悲哀，就是把日子过反了

2 天前

插座APP · 10个黄圣依，打不过一个张泉灵

3 天前

中国企业家杂志 · 向增量要增长｜观察家

4 天前

高绩效HR · OD组织与岗位的设计、诊断和优化：支撑业务增长与效能提升

6 天前

中国企业家杂志 · 孙正义最强副手卸任曾帮其募1000亿美元

1 周前

GameLook · 错失中国二次元游戏，微软在主机市场要干不过索尼了！

3 月前

棕榈大道 · 【央财科研】双非同学也能去央财持续发展金融中心做科研！补充一段 ESG 相关经历！

3 月前

参考消息 · 重磅智库报告发布！

1 周前