今天看啥  ›  专栏  ›  机器学习研究组订阅

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

机器学习研究组订阅  · 公众号  · AI  · 2024-11-16 19:18
    

文章预览

LLM究竟是否拥有类似人类的符合理解和推理能力呢? 许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。 然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有! 论文地址:https://www.nature.com/articles/s41598-024-79531-8 基于一个全新的基准数据集,研究者对目前最先进的7个模型(包括GPT-4、Llama2、Gemini和 Bard)进行了评估。 他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。 约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西? 史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗? 杰西卡和玛丽 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览