今天看啥  ›  专栏  ›  科技新知

7款主流大模型实测:简单的数感测试全翻车

科技新知  · 公众号  ·  · 2024-07-19 19:12
    

文章预览

实测strawberry中有2个字母“r”?不会比大小的大模型也几乎数不对数,数理能力差到惊人! @科技新知 原创 作者丨王思原 编辑丨赛柯                                            谁能想到,号称“超级大脑”的大模型,竟然在几道简单的数学题上败给了小学生。 近日,国内火热的音乐节目《歌手》中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。 艾伦研究机构成员林禹臣将此问题抛给了ChatGPT-4o,但结果令人吃惊,最强大模型竟然在回答中给到了13.11比13.8更大的错误答案。 随后Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?然而几家头部大模型的错误回答,也让该话题传播开来。 而面对如此简单的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览