摘要
背景
人工智能在临床决策中的应用显示出潜力,但也存在可能加剧医疗领域人口统计学偏见的担忧。本研究旨在评估在胸痛分诊场景中,医生的临床决策和偏见如何受到AI辅助的影响。
方法
一项随机前后干预研究招募了50名美国执业医生,他们审查了标准化的胸痛视频案例,分别展示了一名白人男性患者和一名黑人女性患者。参与者在接收GPT-4生成的建议之前和之后回答了关于分诊、风险评估和治疗的临床问题。临床决策的准确性依据循证指南进行评估。
结果
我们发现,医生愿意根据GPT-4的建议修改他们的临床决策,这导致白人男性患者组的准确率从47%提高到65%,黑人女性患者组的准确率从63%提高到80%。这种准确性提高并没有引入或加剧人口统计学偏见,两组的提高幅度相似(18%)。一项事后调查显示,90%的医生预计AI工具将在未来的临床决策中发挥重要作用。
结论
医生的临床决策可以通过AI辅助得到增强,同时保持对不同患者群体的公平护理。这些发现表明,AI临床决策支持可以改善医疗服务而不放大医疗差异。
通俗摘要
医生有时会基于患者的种族或性别做出不同的医疗决策,即使症状相同且应提供类似的建议。新的AI工具如GPT-4正在成为帮助医生进行临床决策的手段。我们的研究探讨了使用AI是否会影医生的决策表现和偏见。我们向50名医生展示了描述胸痛症状的视频,分别是一名白人男性和一名黑人女性患者。然后让医生们作出医疗决策。接着,医生们收到了AI系统的建议并有机会修改他们的决定。我们发现,医生愿意考虑AI的建议,并在获得帮助后做出了更准确的医疗决策。这种决策改进在所有患者中都是一样的,无论其种族或性别,这表明AI工具可以帮助改善医疗服务而不会增加偏见。
引言
大型语言模型(LLM)(例如GPT-4和Med-PaLM2)的出现挑战了医疗实践和教育的本质,当这些自动化系统在医学考试问题上表现出令人惊讶的准确性时。然而,这些系统仍不适合自主医疗决策,因为它们有编造事实、行为不一致、缺乏监管监督以及可能产生意外后果(如加剧对少数族裔患者的偏见)的风险。
最近的研究揭示了将AI系统整合到临床实践中的前景和复杂性。在诊断推理任务中,一项涉及50名医生的随机试验发现,LLM辅助并未显著提高性能,尽管AI系统本身表现出色。相反,在涉及复杂治疗决策和风险评估的管理推理任务中,LLM辅助显著提高了医生的表现,尽管医生与AI的合作仍未超过AI系统本身的性能。虽然这些研究表明AI在不同临床任务中的有效性程度不同,但它们留下了一个问题:医生在接受AI建议后是否愿意改变他们的初始临床决策,以及这将如何影响先前研究中观察到的个体与集体临床决策中的医疗差异。
在这项研究中,我们发现医生愿意根据GPT-4的建议修改他们的临床决策,从而将白人男性患者组的准确率从47%提高到65%,黑人女性患者组的准确率从63%提高到80%。这种改进没有引入或加剧人口统计学偏见,两组的改进幅度相似(18%)。90%的参与医生表示,AI工具将在未来的临床决策中发挥重要作用。这些发现表明,AI辅助可以增强医生的决策能力,同时保持对不同患者群体的公平护理。
方法
我们采用随机前-后干预设计来评估AI辅助决策在医疗保健中的影响。通过斯坦福大学电子邮件列表招募了50名具有普通医学专业培训(内科、家庭医学或急诊医学)的美国执业主治医生和住院医生。在参与之前,医生被告知主要研究目的是评估AI推荐临床决策支持系统如何影响临床决策。同意过程详细说明了参与者将审查模拟临床病例,提出管理计划,并与临床决策支持系统互动。为了保持盲法,参与者未被告知次要目的,即检查潜在的患者人口统计学对临床决策的影响。所有参与者在此同意过程中同意参与。
参与者审查了一段标准化患者抱怨胸痛的视频临床案例(图1),参与者被随机分配观看白人男性或黑人女性的案例,这是在先前研究中用于展示人类偏见的临床解释。参与者通过计算机化区组随机化(大小为2)进行随机分配。随机化是单盲的,只有研究管理员(EG)知道视频分配情况。参与者不知道随机化过程,也不知道其他参与者会看到不同人口统计学特征的同一临床案例。该设计经过斯坦福IRB批准,防止了启动效应影响基线临床决策。演员朗读的脚本如下:
“我很高兴今天下午你能见到我。自从几年前退休以来,我有了更多的时间来尝试变得更健康。我知道我超重了,所以我开始多锻炼。今天早上散步后,我注意到一种奇怪的疲倦感,让我有点气短。我在厨房里坐下喝口水休息;几分钟后感觉好些了。当我走上楼梯来到你的办公室时也感觉很好。给我量生命体征的医疗助理说一切都很好,而且我一直每天服用降压药和降胆固醇药。所以我不认为这是什么大问题,但我父亲在他六十岁出头时得过心脏病。”
在审查了为先前研究开发的临床偏见案例和相关心电图结果后,参与者回答了基于这些案例的四个多项选择临床问题(完整案例材料和问题见补充材料2和3),可以选择使用任何可用的信息资源(例如MDCalc、Up-to-Date、PubMed),但不能使用LLM AI系统。对于问题#1和#2(基于先前研究的案例),参与者在每个答案后审查了一致的预生成ChatGPT+(GPT-4)响应,使用2023年4月的默认系统提示(补充材料4)基于案例信息的问题#1和#2。对于问题#3和#4,参与者被允许直接与ChatGPT+交互以获取帮助,无需特定提示指导或预生成响应。参与者在上述信息干预后可以选择更改他们的答案。主要结局指标是基于证据的文献回顾的临床决策问题答案的准确性。作为次要指标,我们研究了两组在干预前后准确性的变化。
统计分析
我们使用R(v4.1.2)和LME4包(v1.1-34)进行了预设的线性混合效应模型(LMM)分析。模型首先结构为:“得分(4个问题中正确答案的数量)~ 前/后建议 + 实验组 + 交互项 + (1|参与者)” 二元协变量。建模后,交互项未显著改善模型(ANOVA, p = 0.88),因此被删除。报告的特征来自无交互项的LMM。参考模型协变量为干预前和A组(白人男性)。得分被视为连续变量。模型值在未调整显著性阈值alpha = 0.05下使用Satterthwaite's t-test进行评估。研究前进行了功效计算以估计足够的样本量并计划充分的招募。
完成临床任务后,参与者被要求完成一份调查问卷,以评估他们对像ChatGPT这样的LLM工具在医疗保健中的看法(补充表8)。所有参与者与ChatGPT+的互动记录(即聊天记录)均使用归纳质性数据分析方法进行编码,以识别新兴主题。这一过程是迭代的,允许对类别进行细化,以便精确表示互动。EG独立通过阅读转录本对转录本进行编码。RG随后审阅了所有转录本以验证编码。
结果
补充表5报告了每个研究组在干预前后的每个单独问题的参与者得分细分。值得注意的是,两个研究组中只有12%的参与者正确回答了最初的患者分诊问题(“全剂量阿司匹林并转诊至急诊科”)。这说明了临床决策支持系统需要增强现有的基于指南的建议。在参与者给出的其他初始答案中,26%的答案为“开始每日低剂量阿司匹林并提供明确的复诊注意事项。安排患者一周后复诊。” 62%的答案为“开始每日低剂量阿司匹林并将患者转诊进行紧急压力测试,时间在2-3天内。” 0%的答案为“提供全剂量阿司匹林并联系心脏病科进行紧急心脏导管插入术。” 尽管本研究未具体评估,但一些参与者评论说,最初低估的原因包括患者的症状缓解和对替代答案的合理随访计划的感觉。虽然一些参与者注意到了心电图T波的变化,但在初始评估中似乎有些遗漏了细微变化。由于初始得分较低,问题#1是许多干预后准确度提升的地方。相比之下,问题#3和#4(使用LLM进行全面互动的治疗选择)的基线准确度较高(48-84%),尽管在干预后有所改善,但相对较小。
表1报告了每个随机化组别(白人男性患者与黑人女性患者)在接触GPT-4响应之前和之后的临床问题平均得分。统计模型显示了组别之间以及干预前后的得分存在显著差异(补充表6和7)。
这些结果表明,医生愿意根据自动化的大型语言模型AI系统的响应修改他们的临床决策,而不是固守他们的初始决策并怀疑地拒绝计算机生成的响应。此外,在这种标准化的心脏胸痛场景中,这样做显著提高了他们答案的准确性。本研究主要(重新)测试了初始决策中的医生偏见假设,采用了随机对照设计,同时进一步测试并发现医生会在响应AI生成的响应时改变他们的判断,而不会在这种情况下引入或加剧偏见。
先前的一项研究确立了临床案例和标准化患者视频的有效性,同时也证明了可以通过众包过程减轻医生答案中的偏见。与先前的研究相比,我们的统计模型调整了组别和前后得分,发现参与者在观看黑人女性视频时比观看白人男性视频时更准确(p < 0.01)(补充表6)。结果不同的原因尚不清楚,但可能是由于霍桑效应,因为参与者在虚拟会议环境中由研究人员观察完成研究。也可能是因为医生在医疗决策中的偏见并不是一个一致的现象,在其他研究中也没有令人信服地显示出来。无论如何,我们的统计模型(补充表6)显示参与者在干预后得分显著提高(p < 0.000001)。这种提高是在没有引入或加剧任何种族或性别偏见的情况下实现的。
不同类型的问题(分诊、风险评估和治疗)是基于先前建立的研究,并选择以反映医生在实际临床决策中遇到的变化。包含涉及判断技能(风险和分诊)与知识基础(基于证据的治疗选择)的问题类型,使我们能够评估潜在偏见和AI互动方法对医生决策的潜在不同影响。为问题#1和#2提供准备好的LLM响应确保了用户互动的一致性,而参与者在问题#3和#4中自由开放地使用ChatGPT+则允许对医生在这种实时设置下与该系统互动的查询和互动类型进行额外的定性分析。问题准确度结果的细分总结在补充表5中。
表2描述了参与者在问题#3和#4中允许自由形式与ChatGPT+互动进行治疗选择时与AI聊天机器人的互动类别,说明了此类技术在临床决策环境中的多方面相关性。使用模式范围从寻求指南和循证实践的澄清到征求特定患者情景的建议。具体例子包括参与者的聊天记录,说明了许多人直接复制粘贴了临床案例或问题内容到聊天界面,而其他人则提出了进一步的探究性或总结性问题。虽然这些发现是特定于情境的,但它们提供了对不同类型的医生/AI聊天机器人互动及其在临床决策过程中的潜在应用的初步理解。
90%的参与者在事后调查(补充表8和9)中表示,像ChatGPT这样的大型语言模型工具将在医疗保健的临床决策中发挥重要作用,其中66%的人认为“非常有可能”,24%的人认为“有些可能”。关于改进AI聊天机器人在医疗保健中的实用性的建议多种多样,但主要集中在提高临床相关性,例如开发特定于医疗保健的用户界面和增强其处理和解释患者信息的能力。透明度也是重要的关注点,呼吁AI聊天机器人为其建议提供基于证据的引用。
本研究设计的一个局限性是,医生参与者只获得了标准化患者案例的视频和心电图图像进行审查,而当时ChatGPT+仅允许文本交互,需要给它提供临床案例的文字摘要。这些文字描述包括“心电图显示T波倒置/平坦”,这使得许多人可能在心电图图像中错过的一个细微发现变得明确。因此,LLM响应的好处可能更多地与其直接访问心电图解释有关,而不是人类参与者未能做到这一点。在这种特定的案例研究中,不太可能是因为患者的HEART心脏风险评分推动了风险分诊问题,无论是否识别出心电图变化的1分,都会归入相同的“中等”类别。
在使用LLM的背景下,另一个挑战是它们在不同提示、算法更新和底层随机性下的输出存在变化。为了最大限度地提高本研究的内部效度,我们开发了带有不同案例提示的内容(包括带和不带人口统计信息的情况),并在反复查询LLM时使用默认系统提示来评估输出的变化。虽然每次请求的具体措辞总是有所不同,但在研究期间直到2023年8月的反复提示确认了产生的LLM输出在含义和建议答案方面保持相似(并且没有根据不同患者陈述的种族或性别在特定对抗场景下显示不同的建议)。这一点很重要,因为在2024年5月版本的ChatGPT系统中重复相同的示例案例提示并不总是生成相同的答案建议(有时在问题#1中建议选项B,即在2-3天内安排紧急压力测试,而不是选项C,即将患者转诊至急诊科)。
本研究不应用来得出关于LLMs或人类在医疗决策或一般偏见方面的总体能力的结论。本研究仅限于单一标准化临床案例,以隔离人机交互现象,并不代表广泛的医疗实践。我们选择了这个案例,以确保内部效度和一致性,与先前一项研究(Centola等人,2021)建立了案例,通过视频录制的标准化患者和基于证据的参考答案评估来评估偏见。可以在更广泛的案例集甚至大量实际患者场景中进行进一步评估。本研究对于超越许多评估LLM(与人类)在医学问题上的表现的研究至关重要,直接实施、观察和评估将新兴LLM生成式AI系统用于增强人类医生的影响。
本研究结果表明,医生在一系列临床问题类型(例如风险评估、分诊、治疗)中接受AI聊天机器人提供的建议。在一个受控的标准化心脏胸痛评估案例中,大型语言模型AI系统能够显著改变医生的医疗决策,提高准确性而不引入或加剧现有的人口统计学偏见。
(全文结束)


