专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
今天看啥  ›  专栏  ›  图灵人工智能

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

图灵人工智能  · 公众号  ·  · 2024-07-01 00:00
    

文章预览

单击上方“ 图灵人工智能 ”,选择“星标”公众号 您想知道的人工智能干货,第一时间送达   转自 新智元  编辑:桃子 乔杨 【导读】 LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。 在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了! 几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀,去解决动物过河难题。 在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。 经过测试,Gowers发现大模型的废话比率可以达到5倍。 一开始,他先给出了一个农民带2只鸡过河,一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览