专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

机器之心  · 公众号  · AI  · 2024-07-11 15:45
    

文章预览

机器之心报道 机器之心编辑部 四大 VLM,竟都在盲人摸象? 让现在最火的 SOTA 模型们(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)数一数两条线有几个交点,他们表现会比人类好吗? 答案很可能是否定的。 自 GPT-4V 推出以来,视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。 VLMs 既能看懂画面,又能用语言来描述看到的东西,并基于这些理解来执行复杂的任务。比如,给 VLM 模型发去一张餐桌的图片,再发一张菜单的图片,它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价,算出这顿饭买啤酒花了多少钱。 VLMs 的进步如此之快,以至于让模型找出这张图中有没有一些不合常理的「抽象元素」,例如,让模型鉴定图中有没有一个人正在飞驰的出租车上熨衣服,成为了一种通行的测评方式。 然而,目前的基准测试 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览