专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

通用端到端OCR模型开源,拒绝多模态大模型降维打击

量子位  · 公众号  · AI  · 2024-09-10 11:52

文章预览

Vary团队 投稿 凹非寺 量子位 | 公众号 QbitAI 在AI-2.0时代,OCR模型的研究难道到头了吗!? (OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术) Vary作者 团队开源了第一个迈向OCR-2.0的通用端到端模型 GOT 。 用实验结果向人们证明: No~No~No~ GOT模型效果如何? 话不多说,直接上效果图: △  最常用的PDF image转markdown能力 △  双栏文本感知能力 △  自然场景以及细粒度OCR能力 △  动态分辨率OCR能力 △  多页OCR能力 △  更多符号的OCR能力 研究团队称,尽管GOT模型表现不错,但也存在一些局限,如更多的语言支持,更复杂的几何图,chart上的OCR性能。 他们说OCR-2.0的研究还远的很,GOT也还有不小提升空间(该项目在数据和算力资源上都是非常受限的)。 正是因为深知GOT以及OCR-2.0的潜力,我们希望通过开源GOT吸引更多的人,放弃VQA,再次投向 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览