这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

机器之心 · 公众号 · AI · 2024-07-11 15:45

文章预览

机器之心报道机器之心编辑部四大 VLM，竟都在盲人摸象？让现在最火的 SOTA 模型们（GPT-4o，Gemini-1.5，Sonnet-3，Sonnet-3.5）数一数两条线有几个交点，他们表现会比人类好吗？答案很可能是否定的。自 GPT-4V 推出以来，视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。 VLMs 既能看懂画面，又能用语言来描述看到的东西，并基于这些理解来执行复杂的任务。比如，给 VLM 模型发去一张餐桌的图片，再发一张菜单的图片，它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价，算出这顿饭买啤酒花了多少钱。 VLMs 的进步如此之快，以至于让模型找出这张图中有没有一些不合常理的「抽象元素」，例如，让模型鉴定图中有没有一个人正在飞驰的出租车上熨衣服，成为了一种通行的测评方式。然而，目前的基准测试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@oOl0rz:提示词是省不了的，就好比你雇个人帮你干活，你-20241223071208

19 小时前

爱可可-爱生活 · 晚安～ #晚安# -20241221215800

2 天前

黄建同学 · Jim Fan 大佬关于Genisis（网页链接）的赞赏↓如果一-20241221175323

2 天前

宝玉xp · 转发微博-20241221161829

2 天前

爱可可-爱生活 · 【Midscene.js：一款AI驱动的自动化软件开发工具包，能-20241219134303

4 天前

老井扯鸡蛋 · 老井扯鸡蛋：让老井说中了，六月蛋价居然“不烂尾”！！

6 月前

PV-Tech · 又见大单！600MW n型组件供货协议

4 月前

视觉志 · 按摩院，挤满未老先衰的年轻人

2 月前