这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

机器之心 · 公众号 · AI · 2025-02-18 11:44

主要观点总结

文章介绍了名为ZeroBench的视觉基准测试，该测试包含了全新的100个问题，旨在评估大模型的视觉理解和推理能力。这些问题包含各种视觉元素，如复杂的图片解析，逻辑推理和难题挑战等。该基准测试中的问题难度较高，对现有大模型来说都是极大的挑战。经过对多个大模型的评估，所有模型的答题表现均不理想，说明了当前大模型在面对复杂问题时存在的挑战。

关键观点总结

关键观点1: ZeroBench测试的特点和目的

包含了全新问题；重点评估大模型的视觉理解和推理能力；设计独特的手工定制题目增加了问题多样性和挑战性。

关键观点2: 问题的类型和内容

涉及复杂图片解析、逻辑推理等；包含多种视觉元素；需要多步骤推理和高级推理能力。

关键观点3: 大模型的挑战和表现

现有的大模型在ZeroBench测试中的表现均不理想；难以回答这些具有挑战性的问题。

关键观点4: 错误分析和结论

通过错误分析发现，现有大模型在视觉解读上存在缺陷，如计算物体数量错误、难以捕捉细微细节和准确提取信息等。

文章预览

机器之心报道编辑：蛋酱、佳琪眼下最顶尖的一批 LMM 是哪些？你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等…… 但这些大模型，遇到一个名为「ZeroBench」的视觉基准之后，纷纷败下阵来。 20 多个知名模型，首次作答成绩如下，全部是零分：震惊之后，我们仔细研究了这个 ZeroBench 基准里的问题。对于大模型来说，许多现有的基准已经没有任何挑战性，也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现，显然打破了这个局面。 ZeroBench 包含 100 个具有挑战性的全新问题，具体多有挑战性呢？请听题：第一题：不用优惠，菜单上每款点一个，总共需要多少港币？好家伙，这菜单上下颠倒就算了，还反光看不清字，让在其中找到每道菜的价格，再做加法，这不是为难我胖虎吗？对于需要更多步骤才能得到答案的多模态模型来 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博