一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

机器学习算法与自然语言处理  · 公众号  ·  · 2024-08-05 09:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 量子位 作者 | YuBo Ma 图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。 为了评测多模态大模型在PDF长文档上的阅读理解能力,由上海AI Lab领衔提出的 MMLongBench-Doc 评估基准测试了14个LVLMs(视觉语言大模型)。 评估结果表明:表现最好的GPT-4o在整体F1分数上也只达到了 44.9%。 GPT-4V排名第二,得分30.5%。 除了这两个模型,其他被评测LVLMs的表现更是要弱于OCR+LLMs形式。 这些 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览