如何看待 3/15 新发布的模型 GPT-4?

深度学习与NLP · 知乎回答 · AI · 2024-06-25 14:36

文章预览

来源 | 量子位 ID | QbitAI 一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了！而且无论是GPT-4还是Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫 “劣效比率” （crapness ratio），让LeCun打趣说到，一项新的“Benchmark”诞生了。 “模见模愁”的动物过河首先来看一下什么是“动物过河”问题，这是逻辑学当中的一道经典题目。问题的原型是这样的：农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Awesome-Robotics-Diffusion：机器人学-20250219222623

7 小时前

量子位 · DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，一手教程在此

18 小时前

爱可可-爱生活 · 【[16.3k观看]GPU Programming（可视化GPU-20250218082234

昨天

量子位 · DeepSeek加持，北大几何模型达IMO金牌水平！32个CPU核心和1块4090就能实现满血解题

2 天前

机器之心 · 2024 IBM博士生奖学金出炉：韩迟、卓越、张逸骅、冯尚彬等AI研究者入选

2 天前

PCEC 可持续发展服务 · 安全生产 | 重大事故隐患判定标准，自测题来啦！

8 月前

學人Scholar · 对话钱理群：作为癌症患者，我是如何抉择的？

6 月前

长沙家长说 · 有变！湘郡培粹新校区2025年恐难如期开学

4 月前