翻车了！9.11和9.9哪个大？记者实测12个大模型8个都答错

第一财经 · 公众号 · 财经 · 2024-07-17 11:07

文章预览

2024.07. 17 本文字数：3528，阅读时长大约6分钟导读：“文科生”数学差，数学能力一直是大语言模型的短板。作者 | 第一财经刘晓洁一道小学生难度的数学题难倒了一众海内外AI大模型。 9.11和9.9哪个更大？就此问题，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考虑到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。在这背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文科生而不是理科生。不过， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

896汽车调频 · 时间定了！可能还要涨

2 天前

896汽车调频 · 时间定了！可能还要涨

2 天前

21世纪经济报道 · 冲上热搜，DeepSeek突传消息！

3 天前

神嘛事儿 · 很明显的量化硬拉，15分钟K线，但是拉到价格以后市场开始无序逃命-20250131002626

4 天前

神嘛事儿 · 我确信很多吃信息差壁垒的，但是可以结构化以及唯熟手尔的技能，会面-20250130012050

5 天前

第一财经 · GDP十强城市出炉

6 天前

北京徒步者 · 【初级】【周一】06月24日黄花梁10公里穿越

7 月前

iNature · Nat Commun | 四川大学邓东等合作揭示SCMC调控早期胚胎细胞周期的分子机制并阐明其功能

3 月前

微算云平台 · 研究晶界，登顶Science！

3 月前

欣说言语 · 【每日一题】一天一题学言语158

2 周前