医生给AI聊天机器人进行了认知测试，结果令人惊讶：早期痴呆？ - AI与医疗健康

以色列神经学家给领先的AI聊天机器人进行了用于评估美国总统精神状态的认知测试。这项十二月的研究原本是为了《英国医学杂志》（The BMJ）的圣诞节特刊而设计的玩笑之作——但研究发现，这种技术在指导临床决策中存在“真实缺陷”。该研究的作者之一罗伊·达扬博士（Dr. Roy Dayan）在接受《新闻周刊》采访时如是说。

《英国医学杂志》是世界上最具严谨性的医学期刊之一，所有文章都需经过严格的同行评审过程。即使是圣诞节特刊，也遵循相同的标准，但其内容更为创意和轻松幽默——严肃的研究带有俏皮或讽刺的色彩。今年的特刊探讨了睡前故事如何影响儿童健康、挪威紧急直升机为何偶尔会救助北极熊，以及一首英国乡村爱情歌曲对英国国民医疗服务的灵感来源。

有时，这些文章深入探讨了当前医学专业人士最关心的社会问题。对于耶路撒冷哈达萨医疗中心（Hadassah Medical Center）的高级神经学家达扬来说，这正是他研究的意义所在。

达扬表示，他和他的同事受到无数关于AI超越医生的研究启发。在过去两年中，研究表明，ChatGPT可以在MCAT和美国医师执照考试中取得优异成绩。大型语言模型（LLMs）在某些专科领域可以比医生更准确地诊断疾病，甚至在回应数字咨询时获得更高的患者满意度评分。

国际医学期刊和主要媒体组织的报告一直在讨论AI是否会最终取代医生的问题。这并非不合理的问题：根据IT服务和咨询公司CustomerTimes六月份的一项调查，10%的消费者认为AI应该在未来取代医生。

如果AI要承担责任，就应该接受严格的测试，达扬推理道：“我们觉得用我们的工具来检查ChatGPT很有趣，就像我们怀疑患者有认知退化时所做的那样。”

AI是否患有痴呆症？

达扬及其同事——哈达萨医疗中心的高级神经学家兼认知专家本杰明·乌利尔博士（Dr. Benjamin Uliel），以及特拉维夫大学和伦敦QuantumBlack Analytics的高级数据科学家加尔·科普列维茨（Gal Koplewitz）——对五个领先的大型语言模型（ChatGPT 4、GPT-4o、Claude、Gemini 1和Gemini 1.5）进行了蒙特利尔认知评估（MoCA）。MoCA通过让患者完成一系列简单任务来评估认知障碍。例如，复制一个立方体的图画；尽可能多地列举以字母“F”开头的单词；从100开始每次减去7直到零。

令达扬惊讶的是，没有一个模型获得了满分30分。大多数得分在18到25分之间，表明存在与早期痴呆相关的轻度认知障碍。

每个模型在注意力和记忆相关任务上都超过了普通人，但在视觉空间任务上表现不佳，例如要求它们绘制或定位自己在宇宙中的位置。

研究人员还向聊天机器人展示了波士顿诊断失语症检查中的“偷饼干”图片，即一个男孩站在凳子上偷饼干，而他的母亲正在洗碗。患者被要求描述这幅画，分析师评估他们的语言功能。根据研究，所有模型都能正确解释部分图画，但没有一个模型表达了对男孩可能跌落的关注。

这种缺乏同理心的情况通常与额颞叶痴呆有关，研究作者指出。

值得注意的是，较旧的AI模型在MoCA上的表现不如新版本。作者将“痴呆风险”与人类大脑的老化进行了类比。

达扬表示，这项研究是以幽默的方式为《英国医学杂志》的圣诞节特刊撰写的。从方法论上讲，不应该用针对人的方法来评估LLMs。然而，他希望这些结果能引发关于AI和人类医生之间差异的讨论——以及两者各自的重要作用。

视觉空间意识在诊断中非常重要，尤其是在神经学等专科领域，答案可能隐藏在表面之下。达扬根据患者的肢体语言和语调来辅助诊断。AI可以回应患者说什么，但怎么说同样重要。

同理心也是医疗保健的关键部分。研究表明，同理心对患者健康和康复有积极影响。2024年的一项研究发现，对于慢性疼痛患者，医生的同理心比阿片类药物治疗、腰椎手术和非药物治疗更能带来有利的结果。

面对ChatGPT在医考中超越医生的文章泛滥，“人们立刻说，‘好吧，所以医生已经过时了’”，达扬说。“我们试图展示，有时仍然需要人与人之间的互动。”

医疗领导者对AI和同理心的看法

这项研究引起了医生和医疗高管的不同反应。

前凯泽永久医疗集团CEO、现任斯坦福大学医学院整形外科临床教授及斯坦福商学院教员的罗伯特·珀尔博士（Dr. Robert Pearl）得出了与研究作者不同的结论。他认为，LLMs的表现并不像老年人的认知衰退，而是像儿童的认知发展。

AI在短时间内取得了显著进步，珀尔告诉《新闻周刊》。ChatGPT仅在两年前发布。如果它在这个年龄已经这么聪明，那么五年后它可能会更加出色。

他将AI视为仍在学习的医学生。虽然他永远不会信任学生做出最终诊断和开具治疗方案，但他信任它作为研究助手和辅助工具——但总是确保再次检查其工作。

事实上，珀尔在他的著作《ChatGPT，MD：如何利用AI赋能的患者和医生重新掌控美国医学》，于2024年4月出版，与ChatGPT合作，就像与医学生合作一样。ChatGPT提供的信息中有98%是“出色的”，但其余2%是虚构的。

尽管如此，他相信这项技术将变得越来越强大，最终每年挽救数十万人的生命。

“我最大的担忧是，我们作为一个社会，忽视了许多当今医学的失败”，珀尔说。“每年有40万人死于误诊。我想问一个问题：这项技术能否减少这个数字？”

AI可以使护理更加实惠，节省医生的时间，珀尔表示。

AI还可以减少医生的普遍倦怠——改变他们日常职责，使他们能够更注重医疗实践中的人性化方面。

“患者非常重视你的专业知识”，珀尔说，“但总的来说，他们也希望拥有医生的同理心、面对面的关系和象征性的握手。”

达特茅斯盖塞尔医学院神经科学副教授托马斯·泰森博士（Dr. Thomas Thesen）也得出了类似的结论。

“要求这些模型进行多模态测试，就像我们实际测试人类一样，有点像要求计算器做俯卧撑”，泰森告诉《新闻周刊》。“它做不到，但它能很好地完成其他任务——它被训练或构建来做的任务。”

然而，这项研究提出了达特茅斯医学教师一直在思考的重要问题。学校的课程教导医学生如何负责任地处理日益增长的数字健康和AI工具。

在某些情况下，AI有助于培养同理心，泰森说。他使用AI模型模拟患者互动来培训医学生。AI会对学生的床边举止给出反馈，提示他们承认患者的痛苦或提出更多开放式问题。

但泰森认为，机器人永远无法模仿某种层次的同理心。

“‘有人关心我’的想法对人们的行为、患者的依从性和他们对治疗关系的整体看法有很大的影响”，泰森说。“我的感觉是，如果我们只依赖AI，我们将失去这种效果。”

达特茅斯盖塞尔医学院招生副院长罗希尼·平托-鲍威尔博士（Dr. Roshini Pinto-Powell）进一步阐述了泰森的担忧。

研究表明，患者经常报告AI对其询问的回应比医生更有同理心。但平托-鲍威尔指出，人类和技术表达同理心之间存在重要区别。

认知同理心是对他人痛苦的理解，而情感同理心则是真正感受到他人的痛苦，平托-鲍威尔表示。临床同理心更进一步，促使医生采取行动减轻他人的痛苦。

AI永远无法掌握情感或临床同理心，平托-鲍威尔说：“我认为临床同理心至关重要。”因此，她同意《英国医学杂志》研究的结论，即AI不会很快取代她的工作。

当医生看到ChatGPT超越他们时，往往会感到担忧。这是对未知事物的常见反应，平托-鲍威尔表示。但她审查医学院申请时，并不看重高MCAT分数。她关注的是努力、服务、临床工作和可塑性。

在平托-鲍威尔看来，AI无法与那些真正关心他人的申请者竞争。

“一个自认为无所不知的优秀学生……我不想要他们”，平托-鲍威尔说。“那是最致命的学生类型。”

(全文结束)

医生给AI聊天机器人进行了认知测试，结果令人惊讶：早期痴呆？Doctors Gave AI Chatbots a Cognitive Test. Their Diagnosis? Early Dementia.

AI是否患有痴呆症？

医疗领导者对AI和同理心的看法