文章预览
▲ 点击订阅 ,抓住风口 你好,我是王煜全,这 里是王煜全要闻评论。 人工智能大模型,作为本轮科技革命的通用技术,被认为是这个时代的蒸汽机。但是,最近一道小学难度的数学题,却让各路大模型纷纷“栽了跟头”。 “9.11和9.9,哪个数字更大?”, GPT-4o、谷歌的Gemini、Claude 3.5居然全都给出了错误的答案,认为9.11更大。国内的一些大模型,如Kimi,哪怕给它多次的机会,仍然毫不犹豫地犯错。但是,文心一言、字节豆包、腾讯元宝、通义千问等国内模型却成功答对。 这一常识性错误,最早是硅谷独角兽Scale AI的高级提示工程师Riley Goodside,在日常使用GPT-4o时偶然发现的。据推测,由于大模型以token方式解析文本,会将9.11拆分为“9”、“小数点”和“11”,11大于9,所以导致了错误。也有人说,书籍目录、软件版本号的数字排序习惯,也可
………………………………