专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

社区供稿|上线即 Trending, OCR-2.0 助力多模态大模型更快更强

Hugging Face  · 公众号  ·  · 2024-09-19 10:30
    

文章预览

在 AI-2.0 时代,OCR 模型的研究难道到头了吗!? (OCR: 一种将图像中的文字转换为可编辑和可搜索文本的技术) 阶跃作者 团队开源了第一个迈向 OCR-2.0 的通用端到端模型  GOT 。 用实验结果向人们证明: No~No~No~ 上线3天下载量超110k, 登上huggingface  trending榜单。 Hugging Face 体验地址: https://tonic-got-ocr.hf.space/ (跳转原文可直达) GOT 模型效果如何? 话不多说,直接上效果图: △  最常用的 PDF image 转 Markdown 能力 △  双栏文本感知能力 △  自然场景以及细粒度 OCR 能力 △  动态分辨率 OCR 能力 △  多页 OCR 能力 △  更多符号的 OCR 能力 研究团队称,尽管 GOT 模型表现不错,但也存在一些局限,如更多的语言支持,更复杂的几何图,chart 上的 OCR 性能。 他们说 OCR-2.0 的研究还远的很,GOT 也还有不小提升空间(该项目在数据和算力资源上都是非常受限的) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览