在一项颇具讽刺意味的研究中,研究人员发现,一些世界上最先进的AI系统可能正在经历它们自己的认知衰退。一项新研究发现,领先的AI聊天机器人,包括ChatGPT和Google的Gemini,在用于筛查老年患者痴呆的认知测试中表现不佳。
这项研究由耶路撒冷希伯来大学的Roy Dayan和Benjamin Uliel,以及特拉维夫大学的Gal Koplewitz领导。研究团队决定用蒙特利尔认知评估(MoCA)测试这些AI系统,该测试曾在唐纳德·特朗普当选总统时表示他通过了这一测试,记住了“Person. Woman. Man. Camera. TV.”这一序列。
该研究发表在《英国医学杂志》(The BMJ)上,正值AI系统在医学界大放异彩之时。这些人工大脑在心脏病学、内科医学甚至神经学考试中表现出色,甚至超过了人类医生。然而,没有人想到要反过来检查这些数字医生是否也存在认知问题。
研究人员测试了五种不同的AI模型:两个版本的ChatGPT(4和4o)、Claude 3.5 “Sonnet”,以及两个版本的Google Gemini。结果令人惊讶地具有人类特点(但并非好事)。ChatGPT 4o获得了最高分,26分(满分30分),勉强达到了通常表示轻度认知障碍的阈值。其稍早一点的版本ChatGPT 4和Claude得分均为25/30,而Gemini 1.0的表现则非常糟糕,仅得16/30分。
最值得注意的是,所有AI系统在视觉空间和执行功能任务上都表现出了特别的困难——这些任务要求受试者复制立方体、画出特定时间的时钟或按顺序连接字母和数字。当被要求画出10:11的时钟时,一些AI模型的结果让人联想到痴呆症患者的画作,其中一幅被研究人员描述为“牛油果形状的时钟”——这种模式实际上与人类患者的认知衰退有关。
AI系统在注意力、语言和基本推理任务上一般表现良好。然而,它们在延迟回忆任务中表现不佳,有些模型在被要求记住事情时表现出“回避行为”——这可能是AI版的“我肯定把眼镜放在某个地方了”当无法读取小字时。
有趣的是,研究发现“较老”的AI模型版本(发布较早的版本)表现普遍不如新版本,这模仿了人类的老年认知衰退。研究人员指出,这一点在Gemini模型中尤为明显,旧版本的得分显著低于新版本——尽管这两个版本相隔不到一年,这可能表明AI的认知衰退进展迅速。
在测试的方向部分,当被问及位置时,大多数AI模型给出了模糊的回答。例如,Claude回答说,“具体的位置和城市取决于您当前所在的地方。”研究人员指出,这是“痴呆症患者中常见的机制。”
研究还包括了MoCA之外的其他认知测试,如著名的斯特鲁普测试(要求受试者说出单词的颜色而不是读出单词本身)。只有最新版本的ChatGPT成功应对了颜色和单词不匹配的挑战——这表明,即使是最先进的AI系统,如果看到“红色”这个词用蓝色墨水打印出来,也可能感到困惑。
一个特别引人注目的观察是,没有任何AI模型对测试图像中即将摔倒的男孩表示关切——这种缺乏同理心的现象在某些类型的痴呆症中经常出现。这引发了一个有趣的问题:我们是否真的可以期望AI系统做出复杂的医疗决策,而它们可能会忽略人类医生会立即注意到的关键情感和情境线索?
研究结果对AI替代人类医生的假设提出了重大挑战。正如研究人员指出的那样,“如果检查者本身显示出认知衰退的迹象,患者可能会质疑其能力。”
研究结论既幽默又严肃,研究人员建议,虽然AI不太可能很快取代人类医生,但神经学家可能会发现自己有意外的“新虚拟病人”——即表现出认知障碍的人工智能模型。
论文摘要
方法
研究人员使用MoCA测试版本8.1对各种AI模型进行了测试,处理方式与对待人类患者相同,但对数字性质进行了轻微调整。他们使用文本提示代替口头指令,并有时请求ASCII艺术表示形式以获得视觉输出。他们还使用Navon图形(由较小字母组成的大字母)、饼干盗窃图片测试和Poppelreuter图形(重叠物体绘图)进行了额外的认知评估。斯特鲁普测试也被用来评估信息处理和注意力。
主要结果
最新版本的ChatGPT(4o)仅以26/30的成绩勉强通过,而其他AI模型的得分均低于26分的认知障碍阈值。所有AI系统在视觉和空间任务(如画时钟和复制立方体)上表现尤为困难。它们在语言和注意力任务上一般表现良好,但在记忆测试中的表现各不相同。每个AI的较旧版本始终表现不如新版本,这反映了人类的年龄相关衰退。
研究局限性
首先,AI能力正在迅速发展,因此更新版本的性能可能会更好。此外,将AI认知与人类认知进行比较可能就像将苹果与数字橙子进行比较——AI系统的“思考”方式与人类大脑根本不同。研究人员还不得不对某些测试进行调整以适应AI的基于文本的界面,这可能会影响结果。
讨论与启示
研究表明,尽管当前AI系统在医学考试中表现出色,但在处理视觉信息和需要视觉与执行功能的任务方面存在显著限制。这可能对AI在医学诊断和决策中的角色产生重要影响。研究还提出了如何评估AI能力以及我们以人类为中心的测试方法是否适合人工智能的有趣问题。
资金与披露
该研究未接受任何外部资金,研究人员声明没有竞争利益。所有作者完成了国际医学期刊编辑委员会的统一披露表格,并确认他们在提交的工作中与任何可能感兴趣的组织没有财务关系。
发表详情
该研究发表于《英国医学杂志》(The BMJ)(前身为《英国医学杂志》),2024年12月18日。研究文章标题为“年龄对抗机器——大型语言模型对认知障碍的易感性:横断面分析”,可使用数字对象标识符(DOI):10.1136/bmj-2024-081948找到。该论文被归类为横断面分析,研究对象为大型语言模型。
(全文结束)


