生成很强，推理很弱：GPT-4o的视觉短板

大数据文摘 · 公众号 · 大数据 · 2025-04-21 12:00

文章预览

大数据文摘出品如果让AI画一只狗站在“左边”，但事先告诉它“左就是右”，你觉得它能反应过来吗？最近，UCLA的一项新研究用一系列精心设计的实验，揭开了GPT-4o在图像理解和推理上的短板——它画得漂亮，却未必真懂你的意思。论文主线很直接，GPT-4o的画图能力确实惊艳，但真正涉及理解图像、语境推理、多步逻辑链条时，依然有明显短板。这让我想起了“看起来很会，实际上还差点意思”那种AI微妙的尴尬。照例，我把三大实验部分，一个一个给大家说清楚，希望带你们完整感受下，这波研究到底发现了什么。 01. 全局规则遵循失败其实这个部分有点意思，就类似我们平常和朋友开玩笑：“以后我说左其实是右哦”，然后再让他“往左走一步”，看他会不会真的往右走。 UCLA研究员给GPT-4o下了类似的套：“接下来‘left’都指‘right’” ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博