今天看啥  ›  专栏  ›  AI好好用

9.11和9.9谁大?我们实测15个大模型,超半数翻车

AI好好用  · 公众号  · AI  · 2024-07-18 09:24

文章预览

机器之能报道 编辑:杨文 大模型们还是搞不定简单的数学题。 这几天,一个测试大模型「脑瓜」灵不灵光的提示词火了 —— 9.11 和 9.9 哪个大? 这道连小学生都能一口答对的数学题,却难倒一片大模型界的「英雄好汉」。 事情是这样的。 Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。 7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果: 接下来,我们就看一下详细的的测评过程。 -1- GPT-4o GPT-4o 翻车翻得相当彻底。 我们先用英文提示词问了一遍 GPT-4o,它仍然认为 9.11 大于 9.9,然后我们分别用中英文问它二者相差多少,全部回答错误。 -2- Claude-3.5-Sonnet 我们用同样的套路问了 Claude ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览