专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

GOT有望成为视觉大模型第一个杀手级应用?

清熙  · 公众号  ·  · 2024-09-16 21:38

文章预览

光 学字符识别 (OCR) 广泛用于从图像中提取数据。传统的 OCR 模块化架构面对更智能的数字化需求暴露了众多局限性,例如 定制化的复杂性和高成本 。   大型视觉语言模型 (LVLM) 具备了卓越的文本识别能力,针对 OCR 特定功能进行优化,提升诸如高密度文本或特殊字符的识别成为可能。      籍此,来自阶跃星辰、旷视科技、中科院大学和清华的研究人员提出  GOT (General OCR Theory)  的新型 通用OCR模型 。 GOT 旨在统一框架内解决所有 OCR 需求,提供更通用和高效的系统,用于识别各种格式,包括 纯文本、数学、分子式、表格、图表、乐谱,甚至几何形状 。 突出特点是可以用 Markdown,LaTeX Tikz矢量图, Smiles简化分子语言 等生成格式化输出,对处理科学论文和数学内容特别有用。另外,模型支持交互式 OCR 基于区域的识别。     GOT 模型架 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览