专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

量子位  · 公众号  · AI  · 2024-11-03 12:32

文章预览

奇月 发自 凹非寺 量子位 | 公众号 QbitAI 一群大模型玩 你画我猜 ,人类一旁围观超起劲儿。 就像下面这张图展示的,由Grok画 长颈鹿 ,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。 其实这是最近爆火的一种新的 测试基准 (doge)。 游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是 Claude :它赢了3次! GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。 不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是 Circle ??有点子抽象。 所以有人就说,这游戏可以当测试基准来用啊。 还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。 来看看更多有趣的例子 在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览