「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光

人工智能学家 · 公众号 · AI · 2024-07-17 19:25

文章预览

来源：机器学习研究组订阅 13.8和13.11哪个大？这个问题，居然难倒了一票人类。前两天，某知名综艺再次喜提热搜。只不过，这次是因为有一堆网友提出质疑，认为13.11%应该比13.8%大。是只有人类这么蠢吗？ AI2的研究员林禹臣发现这个现象后，用大模型试了一把，结果出人意料—— AI居然也不行？ GPT-4o斩钉截铁地表示：13.11比13.8大。理由如下：虽然13.8看起来更大，因为它小数点后的数字更少，但13.11实际上更大。这是因为13.8相当于13.80，而13.80小于13.11。对此，林禹臣po文表示，AI模型在处理复杂问题方面变得越来越强大（比如越来越会做数学奥赛题），但一些常识性问题对于它们来说仍然非常困难。正如Yejin Choi此前所提出的，AI聪明得令人难以置信，但同时也会蠢得令人震惊。 AI之所以在这个算术题上犯蠢，是因为上下文不清楚的原因吗？ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 粉丝购书五折：网页链接-20250303081333

昨天

最江阴 · 突然宣布：最高降价75%！

2 天前

最江阴 · 突然宣布：最高降价75%！

2 天前

爱可可-爱生活 · 闪亮的不都是创新：AI 生成研究中的剽窃现象查看图片 //@-20250302064428

2 天前

爱可可-爱生活 · 本文通过创新性的专家“预设剽窃”评估，揭示了 LLM 生成研究中-20250302060554

2 天前

量子位 · DeepSeek突袭公布成本利润率：545%

3 天前

新房指南报告 · 成交猛冲，上海楼市梦回2021？！

8 月前

观察者网 · 男子实名举报公检法，河南林州通报

6 月前

WallStreetTequila · 留学生Networking，什么时候开始做比较好？

6 月前

安居客广州 · 快逃！最近突然爆火，开遍广州街头！别被坑了！

2 月前