人工智能能否让医学更具人性?Can AI Make Medicine More Human?

环球医讯 / AI与医疗健康来源:magazine.hms.harvard.edu美国 - 英语2024-10-16 04:00:00 - 阅读时长14分钟 - 6847字
本文探讨了人工智能如何影响医学领域,并通过历史和技术发展的角度分析了其在临床决策支持方面的潜力与挑战。
人工智能医学人性临床推理医生患者医疗人工智能诊断ChatGPTGPT-4LLMs
人工智能能否让医学更具人性?

人工智能能否让医学更具人性?2024年秋季

在1891年卢克·菲尔德斯(Luke Fildes)的画作《医生》中,一位医生正在照料一名生病的孩子。

作为一个在20世纪80年代末和90年代初长大的极客儿童,《星际迷航:下一代》(Star Trek: The Next Generation)这部电视剧对我世界观的影响超过了任何其他电视节目。当“企业号”星舰的船员们探索未知世界时,他们经常面临冲突,但通常会通过外交手段、理性以及对人类(或外星人)尊严的基本尊重来解决这些问题。技术,特别是计算机,在剧中的作用是增强而非取代这种人性。这一点对于“企业号”上的医疗官贝弗利·克鲁舍尔博士(Dr. Beverly Crusher)来说也是如此。对她而言,计算机是一个强大的诊断助手,就像我在工作中使用的听诊器一样。而且,正如我的听诊器一样,医生与计算机之间不存在矛盾——它从根本上增强了她的能力。

《星际迷航》中的贝弗利·克鲁舍尔博士的手办

可以说,这并不是当今大多数医生的经历。相反,计算机已成为所有医学实践问题的替罪羊。从患者的角度来看,就诊过程已简化为坐在检查室里,而医生则盯着电脑屏幕,偶尔抬头看一眼,同时敲击键盘。而对于医生来说,多项研究表明我们大部分时间都在电脑上写或读笔记,而不是与这些笔记中描述的患者互动,这种时间越来越多地侵入私人生活——我们在医学界戏称这种时间为“睡衣时间”。

自2022年秋季以来,当OpenAI公司向世界发布了ChatGPT之后,关于人工智能将如何重塑医学的讨论有时听起来就像是《星际迷航》中的情节。事实上,这样的说法远非新鲜事。利用技术增强医生临床推理技能(有时甚至是完全取代医生)的努力几乎与现代医学本身一样久远。作为一名医生和医学认识论的历史学家,我既研究过也亲身体验过这些技术的承诺和局限。

如果你两年前问我人工智能是否有可能在未来几年内成为临床推理的重要组成部分,我会说不。事实上,在ChatGPT发布前几个月,我出版了我的第一本书,这本书是对医学史的智力概述,在最后一章中我讨论了机器学习和新的人工智能技术。尽管我对这些技术的潜力持乐观态度,但我认为人工智能的支持者严重低估了诊断的复杂性和人工智能系统面临的挑战。

然而,出于好奇,过去两年里我将人工智能研究员的身份添加到了我的职业身份中。我发现的一切改变了我对人工智能改善临床推理的前景的看法,更广泛地说,它改变了我对技术在医学中潜在作用的看法。即便我仍然担心人工智能在临床环境中如何实施,我也意外地对未来充满希望,相信人工智能将增强医生的能力,使我们能够专注于医学中独特的人性方面。

从放血到穿孔卡片

我的乐观部分源于我对过去尝试使用技术增强医生推理的研究。这些尝试可以追溯到法国大革命后的时期,当时医生皮埃尔-查尔斯-亚历山大·路易(Pierre-Charles-Alexandre Louis)开创了通过分析结构化数据来获得超越任何个体医生所能达到的洞见的想法,这始于对放血的研究。

19世纪20年代巴黎流行的放血疗法,特别是通过水蛭进行的放血疗法。受著名医生弗朗索瓦-约瑟夫-维克托·布罗塞(François-Joseph-Victor Broussais)的影响,被称为“医学吸血鬼”的患者身上会被放置数十只水蛭,抽走高达80%的血液量。接受治疗的士兵据说看起来像是穿着闪闪发光的链甲,因为他们的身体被水蛭覆盖。

在这幅石版画中,法国医生弗朗索瓦-约瑟夫-维克托·布罗塞(François-Joseph-Victor Broussais)指示护士继续给病人放血。“但是我的血管里已经没有一滴血了”,图下的文字如此写道。

没有人真正怀疑放血的有效性,但出于未知的原因,路易(现在普遍被认为是第一位准流行病学家)决定通过分析多个患者的离散数据点来测试放血的效果,他称之为“数字方法”。他比较了肺炎患者早期和晚期接受“救命”放血的数据记录,发现那些早期接受放血的患者死亡率更高。尽管路易的发现没有立即产生影响,但他却是第一个意识到大量组织化的信息,如果正确分析,可以提供任何人类都无法提供的见解。

在接下来的几十年里,路易的思想变得主流,包括常规收集生命体征和死因,以及诊断测试的普及。到了20世纪初,改革者梦想着使用机器来自动化收集所有这些数据。我找到的最早提及我们现在所说的医疗人工智能概念的参考来自作家乔治·伯纳德·肖(George Bernard Shaw),他在1918年设想了一种类似于改变了金融的计数机的诊断机器。

“在不久的将来,在诊所和医院中,”肖写道,“我们可以合理地期望医生将所有初步的诊断工作委托给机器操作员,就像他们现在把测体温的工作交给护士一样,而且对报告的准确性比对皇家医学院成员的猜测更有信心。……机器不会犯这样的错误。”

为了更好地照顾患者而常规收集数据的想法渗透了医学界的氛围,包括医学教育。在20世纪初的哈佛医学院(HMS),沃尔特·坎农(Walter Cannon)和理查德·卡博特(Richard Cabot)引入了一种新的教学结构,称为临床病理学会议(CPC)。这种方法借鉴了法律教育,向学习者展示了一个“神秘病例”,其中所有信息都已经收集和整理好。每个病例都遵循专家们的推理,最终得出诊断。其含义显而易见——医学本质上是一项数据分类任务。如果有足够的信息并且正确组织起来,诊断就会随之而来。CPC很快传播到世界各地,并至今仍发表在《新英格兰医学杂志》上。

第二次世界大战期间的技术和数学进步将肖所想象的解决方案从小说到现实转变。受到美国陆军在战争期间筛选应征者尝试的启发,康奈尔大学的精神病学家基夫·布罗德曼(Keeve Brodman)开发了一套症状标准化清单,现在称为系统回顾,大多数人已经忠实地为他们的医生或牙医填写了这份表格。布罗德曼也是第一个在1946年(电子计算机发明的那一年)描述算法医生概念的人。

在20世纪50年代,罗伯特·莱德利(Robert Ledley)和李·拉斯特(Lee Lusted)——可以说是医疗人工智能的创始人——在系统地浏览了数百个发表在《新英格兰医学杂志》上的CPC后,描述了一个过程,即新的流行病学和生物统计学领域将很快取代传统的临床推理。患者将在穿孔卡片上提供他们的病史,然后计算机系统将打印出按概率顺序排列的诊断列表。随着更多测试结果的加入,概率将发生变化,直到计算机最终得出一个最终诊断。

有一种难以置信的乐观情绪认为,诊断很快将完全由计算机完成,而且一系列创新似乎支持了这一看法。有药物相互作用检查器、能够挑选几乎所有感染抗生素的专家系统,还有能够在潜艇上诊断阑尾炎的决策支持工具。还有我个人最喜欢的:INTERNIST-I,这是一个旨在模仿匹兹堡大学医学系主任杰克·迈尔斯(Jack Myers)的诊断能力的人工智能系统,设计用于解决CPC。

在某种程度上,许多这些系统实际上在现实世界中起作用,例如AAPHelp,这是一种计算机系统,帮助诊断阑尾炎。在一项多中心随机对照试验中,使用AAPHelp后,阴性剖腹探查率下降了近一半,错误率从0.9%降至0.2%,死亡率下降了22%。即使有效,这些系统也只能在有限的领域发挥作用,例如在AAPHelp的情况下,仅适用于急性腹痛患者。广泛意义上的人工智能全科医生的梦想逐渐被搁置,取而代之的是提供临床决策支持的更为有限的目标,而人工智能领域总体上进入了所谓的“AI寒冬”。事实上,2012年的一篇诊断人工智能系统的综述显示,与20世纪80年代末的系统相比,性能几乎没有提高。

理解临床思维

尽管医学人工智能的进步停滞不前,临床推理领域经历了一个重要的转变,即采用了一种新的框架——认知心理学,像计算机科学一样,它也源于20世纪50年代的控制论运动。受到心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特沃斯基(Amos Tversky)工作的启发,新一代研究人员试图更好地理解人类大脑,有时候是为了构建人工智能系统,有时候则是为了改进医生的培训。他们发现,医学诊断受到人类决策制定领域的许多相同心理原理的影响。许多看似像夏洛克·福尔摩斯式的询问实际上是今天所谓的系统1思维——快速高效的启发式思维,受到与其他系统1过程相同的偏见和失败的限制。例如,急诊科的研究表明,如果提到心力衰竭的历史,医生就不太可能测试肺栓塞,这种现象称为锚定偏差,即早期信息的价值高于后续信息。

人类似乎并不像计算机那样思考,医生也不例外。计算概率只是医生形成诊断的一部分。难怪皮埃尔-查尔斯-亚历山大·路易的同时代人无法做出统计飞跃,理解放血实际上是在杀死他们的病人。他们的大脑并非如此运作。这些见解在一定程度上解释了为何无法创建能够进行临床推理的人工智能——早期系统基于对医生推理方式的误解。如果人工智能系统要被训练得像医生一样思考,数学概率显然不是前进的方向。

在我于2010年代初期成为一名医生时,这种认知主义的临床推理理解占主导地位。我们这个领域最重要的前提之一是临床决策是由人类大脑存储和访问信息的方式所驱动的。几乎在科幻小说的范畴内,认为计算机可以模拟这种混乱的现实。因此,如果你想改进临床推理和诊断——鉴于诊断延误或漏诊对患者造成的巨大负担,谁不想这样做呢——重点在于教育人类医生。

但在该领域的边缘,人工智能仍然是讨论的一部分。计算机能力的进步等因素帮助研究人员走出AI寒冬,新型机器学习算法越来越多地应用于医学。这些算法具有非常特定的用途,例如预测急诊科患者是否有脓毒症。虽然它们存在显著的局限性——并且在实施时常表现不佳——但它们的潜力促使美国食品药品监督管理局(FDA)为这类技术创建了监管路径。到2010年代末,我们再次谈论人工智能作为一种可能帮助医生和患者的工具,尽管时机总是预计在未来某个舒适的时间点。

从语言到推理?

尽管我可能比大多数临床推理领域的医生更了解这些技术,但我相当尴尬地承认,大规模语言模型(LLMs)——一种通过人类文本输入生成逼真文本输出的机器学习算法——并未引起我的注意,认为它们可能会影响临床推理。我在ChatGPT公开发布之前近一年就使用过其前身GPT-3,但它虽然能创作出令人深思且有时荒诞的诗歌,但似乎没有任何内在的语言和词汇关联能够允许这样的系统帮助诊断。

当OpenAI在2022年秋季向公众发布ChatGPT时,我用临床案例测试了该模型的临床推理能力。尽管它富有创造力,并表现出了一些洞察力,但它经常编造信息(称为幻觉),并且其上下文窗口(单次提示可处理的文本量)太小,无法对医生有用。

然后,在2023年3月,OpenAI发布了基于更强大模型GPT-4的更新版本的ChatGPT。我立刻用一个复杂的临床案例对其进行压力测试——结果让我大吃一惊。没有明显的幻觉,模型的推理和诊断似乎模仿了专家医生的表现。

仅通过基本的提示和我管理患者时的确切想法,模型提供了一个全面的鉴别诊断。

接下来,我用一个我自己最初诊断错误后来被纠正的案例进行测试。我把案件摘要去除了所有身份信息,然后给ChatGPT,指示它提供一个潜在诊断列表。当我阅读模型的回答时,我意识到自己看到了诊断人工智能历史上的一种新事物。仅通过基本的提示和我管理患者时的确切想法,模型提供了一个全面的鉴别诊断。模型首先建议的诊断正是我错误的那个,而第二个则是我认为患者有的。如果我在六个月前有了这个工具,错过了诊断,会对患者的护理产生怎样的改变?

尽管我对ChatGPT表面上的临床推理能力印象深刻,但我不打算被单一的轶事所动摇。我采用了Ledley和Lusted选择的方法,使用CPC进行了实验,并最终在《美国医学会杂志》(JAMA)上发表了研究结果。研究发现,无需额外训练医学资源,GPT-4具有优于以往任何系统的能力,可以提供有用的鉴别诊断——甚至比最好的人类医生还要好。

随后,一系列类似的研究证实了这些结果。更先进的LLMs似乎具有对疾病之间联系的理解,以及如何根据测试结果和其他因素变化的理解,这种理解水平超出了人类,尽管没有访问现实世界或局部流行病学信息。这些模型不仅在CPC上表现良好,还直接从医疗记录中提取真实案例。患者也开始使用这些工具,在某些情况下纠正了漏诊。这些模型能够比人类更好地呈现推理,做出更准确的诊断,甚至在一项由谷歌研究人员进行的令人印象深刻的研究中,直接从患者那里收集临床病史,进行真正的盲测图灵测试。

这是怎么做到的?一个基本上使用大量文本预测下一个单词的人工智能算法怎么可能在诊断能力上超过人类?答案可能在于这些模型进行文本预测的方式与我们对医生决策方式的理解惊人地相似,这种理解源于认知心理学运动。

医生将诊断信息储存在我们称之为脚本的语义群组中。当我们看到一个急性呼吸困难的患者时,会激活诸如肺栓塞或大面积心脏病发作之类的诊断。慢性进展性呼吸困难的患者会带来完全不同的一系列诊断,如心力衰竭或间质性肺病。随着医生经验的增长,我们会不断改进这些脚本。这与支撑LLMs的令牌字符串之间的统计关联非常相似。尽管LLMs缺乏现实世界的体验,但它们也编码了比我一生中所能掌握的更多的知识。也许最重要的是,它们永远不必在凌晨两点连续收治五名患者,仅靠一壶咖啡支撑。

这也引出了这些技术具有巨大潜力的另一个原因。正如路易关于放血的研究所示,以及大量研究证实的那样,人类临床医生——包括我自己——充满了缺陷。现代临床环境的认知负荷远远超出任何人能够实际管理的范围。当我接诊患者时,所有患者的图表全文比梅尔维尔的《白鲸》还要长。医生每几分钟就会被呼叫或安全聊天消息打断。我们容易受到所有人类都会受到影响的认知偏见的影响,如锚定偏见和确认偏见,其中我们更重视支持我们已有观点的证据。借用乔治·伯纳德·肖的话来说,从这样的错误中,LLMs是自由的。

或者它们是吗?有一些我非常尊敬的医生和研究人员认为我在自欺欺人。这些模型不就是“随机鹦鹉”,为了我的利益装扮成医生吗?而且,预训练数据中编码的种族、性别和民族偏见的持续担忧又如何解决?这些担忧已经被多项严谨的研究验证。最严重的担忧可能是幻觉,即由于模型生成文本的方式而产生的错误陈述。虽然有方法可以缓解幻觉,我们也看到了改进,但没有理由认为这个问题会完全得到解决。

奇异的新世界

尽管存在这些真实而严重的缺点,我对AI模型的研究以及作为医生和历史学家的工作使我对其未来充满希望。我不禁希望AI至少让我们在某种程度上接近我儿时《星际迷航》的梦想——一个可以让人更人性化并帮助医生更好地照顾患者的系统。

短期内,这很可能表现为第二意见咨询服务。正如数据显示,人类的第二意见可以改善临床护理,AI第二意见在电子健康记录中下达订单也可以实现同样的效果。这项工作仍处于起步阶段,任何说不同的人都有东西要卖。重要问题仍然存在。在诊断过程中哪个节点的意见最有帮助?如何监控输出以保护患者安全?哪些患者会从中受益最多?但建立这样一个系统目前只需要仔细的研究——我们已经有技术了。

我从未像现在这样对未来充满希望,技术真正帮助我成为一个更好的人。

展望未来几年,我可以看到部署数百甚至数千个人工智能代理遍布整个医疗基础设施的可能性,阅读我们的笔记,给我们反馈,推荐个性化教育,甚至监听我们与患者的交流,提醒我们提出更好的问题或考虑可能被遗忘的诊断。

这听起来像是科幻小说,但这个未来已经存在。我已经使用过它。最近我照顾了一位腹部疼痛严重的孕妇,她不得不住院。专家们感到困惑,尤其是因为她的怀孕意味着许多高级测试无法使用。尽管努力深入查阅医学文献并咨询多位专家,她的实验室值仍在恶化。我的病人感到绝望。最后,在一个晚上,我在她的房间里踱步时问她是否介意我咨询一下AI。她热情地同意了,我打开了ChatGPT应用程序。小心不泄露任何受保护的健康信息,我和她与模型进行了一次对话,回顾了我们的疑问。AI给出了一个全面的列表,列出了我可能遗漏的所有可能性,然后我和病人一起讨论了每一个可能性,看看哪些符合她的病情,哪些不符合。

最终,我的初始假设是正确的。我的病人好转并出院回家。当然,ChatGPT也是正确的。但这次交流给我印象最深刻的是使用技术如何影响我和患者对我们护理的感受。它增加了我们的信心,并让我们更充分地作为人参与进来。换句话说,它使我们的交流更具人性。

大规模语言模型并不是医学的万能药。事实上,我对当前一些技术的推出持悲观态度。这些模型也无法解决更大的问题,如护理成本或弱势群体的可及性。

但我从未像现在这样对未来充满希望,技术真正帮助我成为一个更好的人,而不是试图把我变成一个主要工作是收集信息的数据录入员。这是一个奇异的新世界,我迫不及待地想要探索。


(全文结束)

大健康
大健康