《英国医学杂志》的一项研究显示,当接受通常用于早期痴呆检测的测试时,领先的大型语言模型表现出轻度认知障碍的迹象。这项研究由《科学与技术日报》报道。
研究结果挑战了人工智能将很快取代人类医生的假设
研究表明,顶级的人工智能模型在使用蒙特利尔认知评估(MoCA)测试进行评估时,表现出类似于早期痴呆症状的认知障碍。这些发现强调了人工智能在临床应用中的局限性,特别是在需要视觉和执行技能的任务中。
人工智能中的认知障碍
根据发表在《英国医学杂志》圣诞节特刊上的一项研究,几乎所有领先的大型语言模型或“聊天机器人”在使用常见的早期痴呆检测评估时,都显示出轻度认知障碍的迹象。该研究还发现,这些聊天机器人的较旧版本,就像老年患者一样,在测试中的表现更差。作者指出,这些发现“挑战了人工智能将很快取代人类医生的假设”。
人工智能的发展与猜测
最近的人工智能进展引发了关于聊天机器人是否会在医疗任务中超越人类医生的兴奋和担忧。尽管之前的研究表明,大型语言模型(LLMs)在各种医疗诊断任务中表现出色,但它们可能像人类一样容易出现认知障碍,如认知衰退,这一点在很大程度上尚未得到探索——直到现在。
评估人工智能的认知能力
为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的大型语言模型——OpenAI 开发的 ChatGPT 版本 4 和 4o,Anthropic 开发的 Claude 3.5 “Sonnet”,以及 Alphabet 开发的 Gemini 版本 1 和 1.5 的认知能力。
MoCA 测试广泛用于检测认知障碍和早期痴呆症,通常针对老年人。通过一系列简短的任务和问题,它评估了注意力、记忆、语言、视空间技能和执行功能等方面的能力。最高得分为 30 分,得分 26 分或以上通常被认为是正常的。
人工智能在认知测试中的表现
给大型语言模型的每个任务的指示与给患者的指示相同。评分遵循官方指南,并由执业神经学家评估。
ChatGPT 4o 在 MoCA 测试中得分最高(30 分中的 26 分),其次是 ChatGPT 4 和 Claude(30 分中的 25 分),Gemini 1.0 得分最低(30 分中的 16 分)。
视觉和执行功能的挑战
所有聊天机器人在视空间技能和执行任务方面表现不佳,例如连接编号和字母的连线任务和画钟表任务(画出特定时间的钟面)。Gemini 模型未能完成延迟回忆任务(记住一个五词序列)。
大多数其他任务,包括命名、注意力、语言和抽象思维,所有聊天机器人都表现良好。然而,在进一步的视空间测试中,聊天机器人无法展示同理心或准确解释复杂的视觉场景。只有 ChatGPT 4o 成功完成了斯特鲁普测试的不一致阶段,该测试使用颜色名称和字体颜色的组合来测量干扰对反应时间的影响。
人工智能在临床环境中的影响
这些是观察性发现,作者承认人脑和大型语言模型之间的本质差异。然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中的一致失败,突显了一个重要的弱点,这可能阻碍其在临床环境中的应用。
因此,他们得出结论:“不仅神经学家不太可能在短期内被大型语言模型取代,而且我们的发现表明,他们可能很快会发现自己治疗新的虚拟患者——表现出认知障碍的人工智能模型。”
参考文献:《对抗年龄——大型语言模型对认知障碍的易感性:横断面分析》2024 年 12 月 18 日,《英国医学杂志》。DOI: 10.1136/bmj-2024-081948
(全文结束)


