专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
今天看啥  ›  专栏  ›  OSC开源社区

olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍

OSC开源社区  · 公众号  · 程序员  · 2025-03-04 16:31
    

文章预览

在数字时代,高质量文本数据的获取对于推动语言模型的发展至关重要。 现代人工智能系统依赖于万亿级别的标记数据集来提高其准确性和效率。尽管大量数据来源于互联网,但其中相当一部分以PDF等格式存在,给内容提取带来了独特的挑战。 与易于解析的网页不同,PDF更注重视觉布局而非逻辑文本流程,这使得提取连贯的文本表示变得复杂。传统的光学字符识别(OCR)工具虽尝试解决这些问题,但其局限性阻碍了其在语言模型训练中的大规模应用。 PDF处理的主要问题在于,这些文档存储信息是为了视觉呈现而非逻辑阅读顺序。许多PDF在字符级别编码文本,记录每个字母的位置和字体属性,而没有保留句子结构。 这使得在多栏布局或包含嵌入式表格、图像和公式的文档中重建连贯的叙事变得困难。 此外,扫描的PDF引入了额外的挑战,因为它们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览