一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

机器学习算法与自然语言处理  · 公众号  ·  · 2024-07-20 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 新智元 最新一轮的语言模型,如GPT-4o和Gemini 1.5 Pro,在发布时都被定义为「原生多模态」,能够理解图像、音频、文本等多种形式的输入。 这些多模态LLM在相关的介绍、营销,甚至是学术论文中,都使用了「视觉能力」(visual capability)、「视觉理解」(visual understanding)这样的表述。 这似乎是想表达,模型在某种意义上是可以看见并理解事物的,而且这种能力已经能与人类相匹配。 那么我们开一个脑洞:如果对视觉语言模型进行视力测试,它们会是标准视力5.2或是大近视眼,还是压根啥也看不见 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览