专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

新智元 · 公众号 · AI · 2024-11-16 13:36

主要观点总结

本文报道了关于LLM（大型语言模型）的最新研究，研究表明这些模型在理解性问题上的表现并不如人类。研究者通过一系列实验，包括理解性问题的测试和稳定性评估，对比了LLM和人类的表现。研究发现，LLM在理解简单句子和复杂语法结构方面存在困难，缺乏强有力、一致的回应。尽管LLM在某些任务中表现出实用性，但它们在语言理解方面的表现仍然低于人类水平。研究者认为，LLM缺乏类人的语言理解能力，更像工具而非科学理论。他们指出，LLM的错误反映在其推理过程中，冗余的解释和逻辑步骤中的无关或自相矛盾的信息表明了这一点。总之，这项工作证明LLM并不能完全胜任自然语言处理任务，需要改进和发展才能更好地适应人类的自然语言需求。

关键观点总结

关键观点1: LLM在理解性问题上的表现不如人类。

研究者通过一系列实验对比了LLM和人类在理解性问题上的表现，发现LLM在简单句子和复杂语法结构的理解方面存在困难。

关键观点2: LLM缺乏类人的语言理解能力。

研究者认为LLM更像工具而非科学理论，它们的输出是基于训练数据的统计模式，而不是真正的语言理解。

关键观点3: LLM的错误反映在其推理过程中。

研究者指出，LLM的冗余解释和逻辑步骤中的无关或自相矛盾的信息表明其存在错误。这些错误反映了LLM在理解自然语言方面的局限性。

文章预览

新智元报道编辑：Aeneas 好困【新智元导读】最近，Nature上的一项研究，全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。 LLM究竟是否拥有类似人类的符合理解和推理能力呢？许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！论文地址：https://www.nature.com/articles/s41598-024-79531-8 基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。他们让模型回答了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博