文章预览
单击上方“ 图灵人工智能 ”,选择“星标”公众号 您想知道的人工智能干货,第一时间送达 转自 新智元 编辑:桃子 乔杨 【导读】 LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。 在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了! 几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀,去解决动物过河难题。 在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。 经过测试,Gowers发现大模型的废话比率可以达到5倍。 一开始,他先给出了一个农民带2只鸡过河,一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的
………………………………