Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

机器学习研究组订阅 · 公众号 · AI · 2024-11-16 19:18

文章预览

LLM究竟是否拥有类似人类的符合理解和推理能力呢？许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！论文地址：https://www.nature.com/articles/s41598-024-79531-8 基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？史蒂夫拥抱了莫莉，莫莉亲吻了唐娜。在这种情况下，莫莉被吻了吗？杰西卡和玛丽 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

歸藏的AI工具箱 · Ai2 发布完全开源本地语言模型应用

16 小时前

歸藏的AI工具箱 · Ai2 发布完全开源本地语言模型应用

16 小时前

爱可可-爱生活 · 《爱可可微博热门分享(2.11)》爱可可微博热门分享(2.1-20250211225550

昨天

爱可可-爱生活 · 【[22星]Honeycrisp：一个专为苹果设备设计的深度学习-20250210135619

2 天前

爱可可-爱生活 · 晚安～ #晚安# -20250209224809

3 天前

宝玉xp · 加州大学洛杉矶分校真的要治好秃顶了吗？——看看布鲁因（UCLA）-20250209160410

3 天前

智汇光伏 · 中国能建：签约伊拉克1GW光伏项目

6 月前

今日悉尼 · 澳一地接连发生捅人案！保安在公交站被刺伤，目击者：他手臂在流血

3 月前

楼市测评 · 黄埔香雪现房合生中央城优缺点分析，89平单价2.8万起！配套古村落商业街

1 月前

鸡西新闻网 · 甲流高发！紧急提醒→

1 月前