BMJ：大语言模型有认知障碍？！神经病学家给ChatGPT等大语言模型做认知测试，发现它们几乎都有轻度认知障碍，版本越老越严重

奇点网 · 公众号 · 医学 · 2024-12-26 18:05

主要观点总结

本文主要讲述了一群科学家使用蒙特利尔认知评估（MoCA）测试了几种大语言模型（包括ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1和Gemini 1.5）的认知能力，发现它们普遍存在轻度认知障碍的迹象。研究发现，AI也和人一样，年纪越大越容易出现认知问题。尽管这些模型在某些任务上表现不佳，但在其他任务上表现良好。文章旨在强调人脑和大语言模型之间的本质差异，拟人化描述仅为比喻。

关键观点总结

关键观点1: AI模型在蒙特利尔认知评估（MoCA）测试中的表现不佳，普遍存在轻度认知障碍的迹象。

研究发现，除ChatGPT 4o外，其他大语言模型在MoCA测试中的得分均较低，表现出认知障碍的迹象。

关键观点2: AI也像人一样，年纪越大越容易出现认知问题。

研究中发现，越早版本的AI模型在MoCA测试中的表现普遍越差，暗示着年龄因素对AI的认知能力也有影响。

关键观点3: AI在执行功能和视觉空间任务上的表现较差。

研究者在测试中要求AI完成一些执行功能和视觉空间任务，发现它们在这些任务上的表现不佳，尤其是视觉任务，大语言模型表现得相对较差。

关键观点4: 大语言模型在某些任务上表现良好。

尽管AI在认知评估中的总体表现不佳，但在其他任务（如命名、注意力、语言等任务）上的表现仍然是不错的。

关键观点5: 人脑和大语言模型之间存在本质差异。

研究者强调，拟人化描述仅为比喻，人脑和大语言模型之间存在本质差异，不能混淆两者之间的区别。

文章预览

*仅供医学专业人士阅读参考实在绷不住了，这下人工智能实锤人工“智障”了。事情是这样的。有群科学家试着给大预言模型测了一下蒙特利尔认知评估（MoCA），这是一种临床上经常用来检测认知障碍和痴呆早期迹象的简单测试。我得先发表一下个人观点，用为人类患者定制的量表去测AI，多少有点欺负AI，但这群科学家的想法也有道理，毕竟很多医学大模型在尝试把AI带入实际诊疗，如果要接触真是的患者和医护，那么测测它们的认知能力还是挺有必要的，你也不想碰到个听不懂人话贼拉让人上火只有态度很好的AI大夫吧。简而言之，这群科学家们给ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA，最终仅有ChatGPT 4o以26/30的得分勉强达标，其他大语言模型均未超过25分，表现出轻度认知障碍（MCI）的迹象！另外，研究者们还发现， AI也 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博