专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了

量子位  · 公众号  · AI  · 2024-07-25 12:06
    

文章预览

梦晨 一水 发自 凹非寺 量子位 | 公众号 QbitAI 继分不清9.11和9.9哪个大以后,大模型又“集体失智”了! 数不对单词“Strawberry”中有几个“r” ,再次引起一片讨论。 GPT-4o不仅错了还很自信。 刚出炉的Llama-3.1 405B,倒是能在验证中发现问题并改正。 比较离谱的是Claude 3.5 Sonnet,还越改越错了。 说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。 一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。 在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论: 好吧,也许AGI比我想象的还要更远。 路遇失智AI,拼尽全力终于教会 有人发现,即使使用Few-Shot CoT,也就是“一步一步地想”大法附加一个人类操作示例,ChatGPT依然学不会: 倒是把r出现的位置都标成1,其他标成0,问题的难度下降了,但是数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览