大模型智障检测+1：Strawberry有几个r纷纷数不清，最新最强Llama3.1也傻了

量子位 · 公众号 · AI · 2024-07-25 12:06

文章预览

梦晨一水发自凹非寺量子位 | 公众号 QbitAI 继分不清9.11和9.9哪个大以后，大模型又“集体失智”了！数不对单词“Strawberry”中有几个“r” ，再次引起一片讨论。 GPT-4o不仅错了还很自信。刚出炉的Llama-3.1 405B，倒是能在验证中发现问题并改正。比较离谱的是Claude 3.5 Sonnet，还越改越错了。说起来这并不是最新发现的问题，只是最近新模型接连发布，非常热闹。一个个号称自己数学涨多少分，大家就再次拿出这个问题来试验，结果很是失望。在众多相关讨论的帖子中，还翻出一条马斯克对此现象的评论：好吧，也许AGI比我想象的还要更远。路遇失智AI，拼尽全力终于教会有人发现，即使使用Few-Shot CoT，也就是“一步一步地想”大法附加一个人类操作示例，ChatGPT依然学不会：倒是把r出现的位置都标成1，其他标成0，问题的难度下降了，但是数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[66星]mcp-server-mas-sequential--20250407201214

昨天

机器之心 · 论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

昨天

人工智能那点事 · 包括小米SU7事故路段，多地高速突然出现！最新回应……

2 天前

新智元 · Midjourney V7重磅上线，硬刚GPT-4o强强对决！AI生图王者争霸实测来袭

3 天前

人工智能那点事 · 女生劝阻“甲亢哥”被全球直播！最新回应来了……

4 天前

首都公立国际部 · 大决战第二天！国际部遇冷降分？家长还在摇摆......

9 月前

南方人物周刊 · 从《可可西里》聊到《解密》，摄影师曹郁说，技术给人以自由

6 月前