通用端到端OCR模型开源，拒绝多模态大模型降维打击

量子位 · 公众号 · AI · 2024-09-10 11:52

文章预览

Vary团队投稿凹非寺量子位 | 公众号 QbitAI 在AI-2.0时代，OCR模型的研究难道到头了吗！？（OCR：一种将图像中的文字转换为可编辑和可搜索文本的技术） Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型 GOT 。用实验结果向人们证明： No~No~No~ GOT模型效果如何？话不多说，直接上效果图： △ 最常用的PDF image转markdown能力 △ 双栏文本感知能力 △ 自然场景以及细粒度OCR能力 △ 动态分辨率OCR能力 △ 多页OCR能力 △ 更多符号的OCR能力研究团队称，尽管GOT模型表现不错，但也存在一些局限，如更多的语言支持，更复杂的几何图，chart上的OCR性能。他们说OCR-2.0的研究还远的很，GOT也还有不小提升空间（该项目在数据和算力资源上都是非常受限的）。正是因为深知GOT以及OCR-2.0的潜力，我们希望通过开源GOT吸引更多的人，放弃VQA，再次投向 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【gradio-webrtc：基于Gradio的WebRTC实时-20241122195733

23 小时前

机器之心 · 高通的自研架构芯片，正在整合生成式AI世界

4 天前

宝玉xp · AI辅导作业👍//@fxsome:给孩子整理错题，错题大都是图-20241119074130

4 天前

机器之心 · Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

5 天前

爱可可-爱生活 · [CL]《Counterfactual Generation f-20241118060432

5 天前

侠客岛 · 【解局】“黑猴”之外

1 月前

浪潮新消费 · 一位投资人“务农”四年之后：经验都是虚妄的，只有教训是真实的

1 月前