VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

机器学习算法与自然语言处理 · 公众号 · · 2024-07-20 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 新智元最新一轮的语言模型，如GPT-4o和Gemini 1.5 Pro，在发布时都被定义为「原生多模态」，能够理解图像、音频、文本等多种形式的输入。这些多模态LLM在相关的介绍、营销，甚至是学术论文中，都使用了「视觉能力」（visual capability）、「视觉理解」（visual understanding）这样的表述。这似乎是想表达，模型在某种意义上是可以看见并理解事物的，而且这种能力已经能与人类相匹配。那么我们开一个脑洞：如果对视觉语言模型进行视力测试，它们会是标准视力5.2或是大近视眼，还是压根啥也看不见 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

杭州本地宝 · 杭州社保断缴，是不是就白缴了？

昨天

云南司法行政 · 强国复兴有我 · 复议为民 | 违章停车被处罚怎么办？

昨天

云南司法行政 · 强国复兴有我 · 复议为民 | 违章停车被处罚怎么办？

昨天

中国民商法律网 · 房屋超出保修期，开发商是否担责 | 资讯

3 天前

宁夏高级人民法院 · “迟到”的抚养费让父爱不缺位

3 天前

宁夏高级人民法院 · “迟到”的抚养费让父爱不缺位

3 天前

第一财经资讯 · 俄罗斯央行，重大宣布！

3 月前

第一财经资讯 · 俄罗斯央行，重大宣布！

3 月前

Quora文选英语 · 老外说Search me! 可不是“快搜我身”！到底什么意思？【177】

3 月前

创策汇SH · 【浦东新区】关于开展2025年第一批浦东新区促投资提能级-鼓励企业加大投资力度（区重点投资项目）专项申报工作的通知

3 周前