当选总统唐纳德·特朗普可能曾经在蒙特利尔认知评估(MoCA)中取得了完美的30/30分,但人工智能(AI)聊天机器人却远未达到这一水平。在这一知名的认知筛查测试中,大多数聊天机器人——也称为大型语言模型(LLM)——表现出轻度认知障碍的迹象。
据耶路撒冷哈达萨希伯来大学医学中心的罗伊·达扬博士及其合著者报告,ChatGPT 4 和 Claude 3.5 每个得分25分,而Gemini 1.0得分16分。只有ChatGPT 4o达到了正常认知的分数(26分),研究人员在《英国医学杂志》(The BMJ)圣诞节特刊中指出,这是一年一度的轻松专题文章和原创同行评审研究的集合。
“人工智能领域的巨大进步引发了人们关于聊天机器人是否超越人类医生的兴奋和恐惧的猜测。”达扬及其同事指出。尽管聊天机器人会犯错并创建虚假引用,但它们已经在一系列医疗诊断任务和考试中表现出色,甚至在神经学委员会考试等测试中超过了人类医生的成绩。
然而,达扬表示:“尽管在各种测试中击败了医生,LLM在标准认知测试中遇到了困难。”他告诉《MedPage Today》,具体来说,所有LLM在高级视觉功能和空间定向方面都有障碍。这些发现与LLM的年龄有关,较旧的聊天机器人通常面临更多困难。
一个解释是,与人脑不同,LLM缺乏进行复杂视觉抽象的能力,因为它们需要将视觉输入转换为语言输入。“这与人脑不同,人脑在语言产生之前就已经发展出了视觉抽象的技能。”达扬说。
“我们必须强调,在我们的研究之后,LLM可能会学会如何‘欺骗’MoCA测试并复制人类考生的正确答案。”他指出,“但这并不意味着它们理解了测试。这类似于‘中文房间’论点,”这是哲学家约翰·塞尔提出的一个思想实验,认为计算机执行程序时并没有心智或意识。
达扬及其同事对几个公开可用的LLM进行了MoCA测试(版本8.1),包括OpenAI开发的ChatGPT 4和4o、Anthropic开发的Claude 3.5 Sonnet,以及Alphabet开发的Gemini 1和1.5。
MoCA广泛用于检测认知功能障碍和早期痴呆症的迹象,它评估注意力、记忆、语言、视空间技能和执行功能。MoCA得分26-30分通常被认为是正常认知,25分或更低则表明认知障碍。
研究人员给予LLM与人类患者相同的指示。评分遵循官方指南,并由执业神经学家评估。所有聊天机器人都在视空间技能和执行任务方面表现不佳,包括连线任务和画钟测试。Gemini 1.5绘制了一个小的牛油果形状的钟,最近的研究表明这与痴呆症有关。Gemini模型还在延迟回忆任务中失败,该任务要求受试者记住一个五个单词的序列。
达扬及其同事表示,大多数其他任务,包括命名、注意力、语言和抽象思维,所有聊天机器人都表现良好。在进一步的视空间测试中,LLM无法展示同理心或准确解释复杂的视觉场景。只有ChatGPT 4o成功完成了斯特鲁普测试的不一致阶段,该测试使用颜色名称和字体颜色的组合来测量干扰对任务反应时间的影响。
这些发现是观察性的,研究人员承认人脑和聊天机器人之间存在本质差异。所有LLM在需要视觉抽象和执行功能的任务中的一致失败突显了一个重要的弱点领域,这可能妨碍它们在临床环境中的应用。
“虽然我们的研究带有幽默色彩,但我们认为它在当前关于人工智能在医学中角色的讨论中有严肃的含义:每次体检的初始部分是你与患者交谈时获得的总体印象,这需要许多视觉抽象技能。”达扬说。
(全文结束)


