大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

量子位 · 公众号 · AI · 2024-06-24 16:11

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI 一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了！而且无论是GPT-4还是Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫 “劣效比率” （ crapness ratio），让LeCun打趣说到，一项新的“Benchmark”诞生了。 “模见模愁”的动物过河首先来看一下什么是“动物过河”问题，这是逻辑学当中的一道经典题目。问题的原型是这样的：农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【数学几何自学宝：一本开源的数学书籍，深入浅出地介绍基础拓扑、光-20241214164415

昨天

爱可可-爱生活 · 本文提出了LATENTQA任务和LIT方法，利用自然语言来解释和-20241214060414

2 天前

宝玉xp · tab远远不够，composer写提示词才是王道//@韦字只念第-20241212233505

3 天前

新智元 · NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，Ilya连续三年获奖

4 天前

黄建同学 · full-stack-fastapi-template，全栈、现-20241210211450

5 天前