专栏名称: 深度学习与NLP

专注深度学习、NLP相关技术、资讯。

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

星嘉坡眼 · 家里有地收租的马来西亚人，在新加坡实现了“当 ... · 昨天

星嘉坡眼 · PSLE之后，中学择校千万不要犯这个大错！ · 3 天前

星嘉坡眼 · 新加坡这场选美比赛结果出了！还筹得了善款14万新币 · 5 天前

星嘉坡眼 · 新加坡洗钱案最新进展：15名涉案者同意上缴1 ... · 5 天前

星嘉坡眼 · 裕华园阔别5年耀眼回归！李显龙亲临盛赞“新加 ... · 6 天前

今天看啥 › 专栏 › 深度学习与NLP

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

深度学习与NLP · 知乎专栏 · · 2024-06-25 14:36

文章预览

来源 | 量子位 ID | QbitAI 一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了！而且无论是GPT-4还是Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫 “劣效比率” （crapness ratio），让LeCun打趣说到，一项新的“Benchmark”诞生了。 “模见模愁”的动物过河首先来看一下什么是“动物过河”问题，这是逻辑学当中的一道经典题目。问题的原型是这样的：农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博