菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

机器学习研究组订阅 · 公众号 · AI · 2024-06-30 18:12

文章预览

在经典的「狼-山羊-卷心菜」过河问题上，如今所有的LLM都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀，去解决动物过河难题。在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。经过测试，Gowers发现大模型的废话比率可以达到5倍。一开始，他先给出了一个农民带2只鸡过河，一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？别说成年人了，就拿低幼小孩子来说，一听完题目，就立马给出正确的答案。搞笑的是，ChatGPT的回答分解了5个步骤，让人看着极其愚蠢荒谬。第一次渡河：农夫带着两只鸡一起过河；现状：农夫和两只鸡在河对岸。第二次渡河：农夫把两只鸡留在对岸，然后独自返回；现状：农夫在起始岸，两 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(11.25)》爱可可微博热门分享(11-20241125224700

18 小时前

爱可可-爱生活 · 几篇论文实现代码：《MoE Jetpack: From Dens-20241124171610

2 天前

爱可可-爱生活 · 晚安～ #晚安# -20241123230805

2 天前

爱可可-爱生活 · 【tex-fmt：一个用Rust编写的超高性能LaTeX代码格式-20241123160751

3 天前

赛博禅心 · 来自 OpenAI 活动的随记

4 天前

赛博禅心 · 来自 OpenAI 活动的随记

4 天前

高维学堂 · 为什么别人老是不配合我的工作？

2 月前