9.11和9.9谁大？我们实测15个大模型，超半数翻车

AI好好用 · 公众号 · AI · 2024-07-18 09:24

文章预览

机器之能报道编辑：杨文大模型们还是搞不定简单的数学题。这几天，一个测试大模型「脑瓜」灵不灵光的提示词火了 —— 9.11 和 9.9 哪个大？这道连小学生都能一口答对的数学题，却难倒一片大模型界的「英雄好汉」。事情是这样的。 Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。 7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果：接下来，我们就看一下详细的的测评过程。 -1- GPT-4o GPT-4o 翻车翻得相当彻底。我们先用英文提示词问了一遍 GPT-4o，它仍然认为 9.11 大于 9.9，然后我们分别用中英文问它二者相差多少，全部回答错误。 -2- Claude-3.5-Sonnet 我们用同样的套路问了 Claude ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

2 天前

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

2 天前

爱可可-爱生活 · 本文揭示了大型语言模型在指令微调中并非总是“更好的教师”这一反直-20241118055923

4 天前

宝玉xp · 说的挺对的，AI就是工具，甚至借助AI，可以先用起来，基础知识可-20241117012655

5 天前

爱可可-爱生活 · [CL]《Squeezed Attention: Acceler-20241116053657

6 天前

宝玉xp · →_→//@翼尖小翅:学车最好还是手动挡“//@宝玉xp:这个我-20241116042327

6 天前

Dada Bar Beijing · 七夕特别夜8月10日 - 还没有另一半？来了就有了啊！Chinese Valentine's Day @ Dada北京

3 月前