专栏名称: 第一财经
第一财经官方公众号,致力为广大投资者打造最权威的财经信息平台,同时,努力成为第一财经忠实用户的交流平台。
今天看啥  ›  专栏  ›  第一财经

翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错

第一财经  · 公众号  · 财经  · 2024-07-17 11:07
    

文章预览

2024.07. 17 本文字数:3528,阅读时长大约6分钟 导读 :“文科生”数学差,数学能力一直是大语言模型的短板。 作者 | 第一财经 刘晓洁 一道小学生难度的数学题难倒了一众海内外AI大模型。 9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。 大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。 在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览