专栏名称: 清熙

清晰、客观、理性探讨大模型（LLM）、人工智能（AI）、大数据（Big Data）、物联网（IoT）、云计算（Cloud）、供应链数字化等热点科技的原理、架构、实现与应用。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

GOT有望成为视觉大模型第一个杀手级应用？

清熙 · 公众号 · · 2024-09-16 21:38

文章预览

光学字符识别（OCR）广泛用于从图像中提取数据。传统的 OCR 模块化架构面对更智能的数字化需求暴露了众多局限性，例如定制化的复杂性和高成本。大型视觉语言模型（LVLM）具备了卓越的文本识别能力，针对 OCR 特定功能进行优化，提升诸如高密度文本或特殊字符的识别成为可能。籍此，来自阶跃星辰、旷视科技、中科院大学和清华的研究人员提出 GOT （General OCR Theory）的新型通用OCR模型。 GOT 旨在统一框架内解决所有 OCR 需求，提供更通用和高效的系统，用于识别各种格式，包括纯文本、数学、分子式、表格、图表、乐谱，甚至几何形状。突出特点是可以用 Markdown，LaTeX Tikz矢量图, Smiles简化分子语言等生成格式化输出，对处理科学论文和数学内容特别有用。另外，模型支持交互式 OCR 基于区域的识别。 GOT 模型架 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博