olmOCR-7B，基于Qwen2的文档提取OCR专用模型

江大白 · 公众号 · · 2025-03-10 08:00

文章预览

以下文章来源于微信公众号：程序员涂陌作者：TyCoding 链接：https://mp.weixin.qq.com/s/cDALTMV8xwgApbGCvPqeXA 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读现代文档处理面临PDF解析难题，尤其是文本结构复杂的扫描文档。本文介绍olmOCR-7B，在25万页文档上微调 Qwen2-VL-7B-Instruct，以高精度、高效能提取纯文本。相比GPT-4o API，其成本降低至1/32，并支持 Markdown输出，在多种文档类型上均优于主流OCR方案。 olmOCR-7B：文档提取专用模型 olmOCR在250,000页的数据集上微调了Qwen2-VL-7B-Instruct模型，旨在将PDF和文档图像转换为干净且结构化的纯文本。 olmOCR-7B：文档提取专用模型从预训练到推理，语言模型（LM）都在处理纯文本数据。无论是处理万亿级别的令牌训练，还是为数据密集型AI应用提供服务，这些文本的质量都至关重要。噪声文本会导致训练不稳 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博