专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

新智元 · 公众号 · AI · 2024-07-16 13:16

文章预览

新智元报道编辑：编辑部【新智元导读】视觉大语言模型在最基础的视觉任务上集体「翻车」，即便是简单的图形识别都能难倒一片，或许这些最先进的VLM还没有发展出真正的视觉能力？最新一轮的语言模型，如GPT-4o和Gemini 1.5 Pro，在发布时都被定义为「原生多模态」，能够理解图像、音频、文本等多种形式的输入。这些多模态LLM在相关的介绍、营销，甚至是学术论文中，都使用了「视觉能力」（visual capability）、「视觉理解」（visual understanding）这样的表述。这似乎是想表达，模型在某种意义上是可以看见并理解事物的，而且这种能力已经能与人类相匹配。那么我们开一个脑洞：如果对视觉语言模型进行视力测试，它们会是标准视力5.2或是大近视眼，还是压根啥也看不见？一项新研究表明，大语言模型实际上并没有像期望的拥有类人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博