注册
登录
专栏名称:
清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
LeaderCareer
·
英国校招 | 渣打银行Standard ...
·
2 天前
stormzhang
·
又被平均了?
·
2 天前
鸿洋
·
安卓应用跳转回流的统一和复用
·
4 天前
LeaderCareer
·
英国实习 | ...
·
1 周前
今天看啥
›
专栏
›
清熙
GOT有望成为视觉大模型第一个杀手级应用?
清熙
·
公众号
· · 2024-09-16 21:38
文章预览
光 学字符识别 (OCR) 广泛用于从图像中提取数据。传统的 OCR 模块化架构面对更智能的数字化需求暴露了众多局限性,例如 定制化的复杂性和高成本 。 大型视觉语言模型 (LVLM) 具备了卓越的文本识别能力,针对 OCR 特定功能进行优化,提升诸如高密度文本或特殊字符的识别成为可能。 籍此,来自阶跃星辰、旷视科技、中科院大学和清华的研究人员提出 GOT (General OCR Theory) 的新型 通用OCR模型 。 GOT 旨在统一框架内解决所有 OCR 需求,提供更通用和高效的系统,用于识别各种格式,包括 纯文本、数学、分子式、表格、图表、乐谱,甚至几何形状 。 突出特点是可以用 Markdown,LaTeX Tikz矢量图, Smiles简化分子语言 等生成格式化输出,对处理科学论文和数学内容特别有用。另外,模型支持交互式 OCR 基于区域的识别。 GOT 模型架 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
LeaderCareer
·
英国校招 | 渣打银行Standard Chartered开放校招岗位,地点伦敦!
2 天前
stormzhang
·
又被平均了?
2 天前
鸿洋
·
安卓应用跳转回流的统一和复用
4 天前
LeaderCareer
·
英国实习 | 花旗银行Citibank开放2025年实习,地点伦敦!
1 周前
中交国际
·
贠亮在巴西召开萨尔瓦多大桥专题工作会
4 月前