主要观点总结
本文主要讲述了一群科学家使用蒙特利尔认知评估(MoCA)测试了几种大语言模型(包括ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1和Gemini 1.5)的认知能力,发现它们普遍存在轻度认知障碍的迹象。研究发现,AI也和人一样,年纪越大越容易出现认知问题。尽管这些模型在某些任务上表现不佳,但在其他任务上表现良好。文章旨在强调人脑和大语言模型之间的本质差异,拟人化描述仅为比喻。
关键观点总结
关键观点1: AI模型在蒙特利尔认知评估(MoCA)测试中的表现不佳,普遍存在轻度认知障碍的迹象。
研究发现,除ChatGPT 4o外,其他大语言模型在MoCA测试中的得分均较低,表现出认知障碍的迹象。
关键观点2: AI也像人一样,年纪越大越容易出现认知问题。
研究中发现,越早版本的AI模型在MoCA测试中的表现普遍越差,暗示着年龄因素对AI的认知能力也有影响。
关键观点3: AI在执行功能和视觉空间任务上的表现较差。
研究者在测试中要求AI完成一些执行功能和视觉空间任务,发现它们在这些任务上的表现不佳,尤其是视觉任务,大语言模型表现得相对较差。
关键观点4: 大语言模型在某些任务上表现良好。
尽管AI在认知评估中的总体表现不佳,但在其他任务(如命名、注意力、语言等任务)上的表现仍然是不错的。
关键观点5: 人脑和大语言模型之间存在本质差异。
研究者强调,拟人化描述仅为比喻,人脑和大语言模型之间存在本质差异,不能混淆两者之间的区别。
文章预览
*仅供医学专业人士阅读参考 实在绷不住了,这下人工智能实锤人工“智障”了。 事情是这样的。 有群科学家试着给大预言模型测了一下蒙特利尔认知评估(MoCA),这是一种临床上经常用来检测认知障碍和痴呆早期迹象的简单测试。我得先发表一下个人观点,用为人类患者定制的量表去测AI,多少有点欺负AI, 但这群科学家的想法也有道理,毕竟很多医学大模型在尝试把AI带入实际诊疗,如果要接触真是的患者和医护,那么测测它们的认知能力还是挺有必要的 ,你也不想碰到个听不懂人话贼拉让人上火只有态度很好的AI大夫吧。 简而言之,这群科学家们给ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA,最终仅有ChatGPT 4o以26/30的得分勉强达标,其他大语言模型均未超过25分,表现出轻度认知障碍(MCI)的迹象! 另外,研究者们还发现, AI也
………………………………