GPT-4o弱点暴露了，PDF长文档阅读理解仅45分

AI生成未来 · 公众号 · · 2024-08-04 07:00

文章预览

点击下方卡片，关注“ AI生成未来 ” >>后台回复“GAI”，免费获取AI行业报告和资料！转载自：量子位如有侵权，联系删稿图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR，layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展，PDF长文档的端到端阅读理解成为了可能。为了评测多模态大模型在PDF长文档上的阅读理解能力，由上海AI Lab领衔提出的 MMLongBench-Doc 评估基准测试了14个LVLMs（视觉语言大模型）。评估结果表明：表现最好的GPT-4o在整体F1分数上也只达到了 44.9%。 GPT-4V排名第二，得分30.5%。除了这两个模型，其他被评测LVLMs的表现更是要弱于OCR+LLMs形式。这些结果表明，目前的LVLMs在端到端PDF长文档阅读任务上虽然表现出了一定的潜力，但仍然还有很大的提升空间。 135个PDF、1091个问题 LVLMs的出现有效促进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博