虽然使用专业AI工具的医生似乎结合了双方的优势,但新出现的证据表明,仅由AI进行诊断的表现可能优于使用AI辅助的医生。
与此相平衡的是,麻省理工学院(MIT)最近的一项研究(Gourabathina等人)发现,数据中的"非临床相关属性",如语气、空格和拼写错误,会显著降低AI的临床诊断准确率,可能对患者造成伤害。
因此,当接待员(可能也是机器人)传来"机器人医生现在可以为您看诊"的通知时,您会如何回应?
工具与替代者
在美国《纽约时报》的一篇评论文章中,美国医学研究人员Rajpurkar博士和Topol博士确定了医疗从业者使用AI的三种模式:
- 模式1:人类医疗从业者首先通过面诊患者和进行身体检查来收集医疗信息。
- 模式2:AI首先分析收集到的医疗数据并提出可能的诊断和治疗方案,然后医生运用临床判断来确定治疗方案,根据医生治疗该病症的临床经验、患者的身体限制、社会和家庭状况以及保险覆盖范围(在美国比在许多其他医疗系统中更为重要的因素)调整建议。
- 模式3:AI独立处理某些常规病例(如正常的胸部X光片或低风险的乳腺X光检查),而医疗从业者则专注于更复杂的疾病或具有非典型特征的罕见疾病。
研究表明,模式1和模式3可能是AI与医生之间劳动力分配的最佳方式。
首先,由人类与患者交谈开始,而不是相反,这一点似乎很重要。一项麻省理工学院-斯坦福大学的研究(Johri、Rajpurkar等人)发现,如果AI进行初始患者面诊,其诊断准确率会显著下降,在某些情况下从82%降至63%。研究人员建议,尽管AI的对话能力已经变得很强(即使不算真正像人),但它们无法匹敌真正的人类医疗从业者的"临床对话推理、病史采集和诊断准确率"技能。
其次,一旦收集了患者信息,就可以应用AI的模式识别,这是一种毫无疑问强大的诊断工具。哈佛医学院和波士顿贝斯以色列女执事医疗中心(Brodeur、Buckley等人)的一项领先研究得出结论(强调部分为新增):
我们在每个实验中都发现了持续的超人表现。最重要的是,该模型在使用真实和非结构化临床数据的真实急诊病例中,表现超过了专家医生。这些诊断触点反映了急诊医学中做出的高风险决策,护士和临床医生需要在信息有限的情况下做出时效性强的决策。
一项实验涉及为期两周内的80个急诊病例。在三个关键点——急诊室初步分诊(护士确定患者应多快见到医生)、急诊室医生评估以及入院至普通病房或重症监护室。数据提供给GPT-4o和o1模型,以及两名获得委员会认证的内科医生。AI和人类的诊断输出以盲测方式提供给两位主要医生进行评估。在每个阶段,o1模型在识别确切或非常接近的诊断方面都超过了人类医生。
当可用患者信息有限但需要快速评估和紧急干预时,AI在初始分诊阶段的表现优于人类医生最为显著。
此外,评估盲测结果的医生表示,在超过80%的病例中,他们无法判断诊断方是AI还是人类医生。
第三,当AI独立于人类医生工作时,表现更好。在2024年10月的一项斯坦福-哈佛研究中,仅由AI进行诊断的准确率达到92%,而医生使用AI工具的准确率为76%,仅靠医生自身技能和传统工具的准确率为74%。研究人员得出结论:
这项随机临床试验发现,医生使用商用大型语言模型(LLM)聊天机器人并未改善对具有挑战性临床病例的诊断推理,尽管LLM单独表现显著优于参与研究的医生……这些结果表明,仅获得LLM的访问权限并不会在实践中提高医生的整体诊断推理能力。
可能的解释是,AI经过海量数据集的训练,具有超人的模式匹配能力,在诊断上往往比人类更准确。但还有另外两种可能的解释,反映了医疗从业者与我们其他人一样,仍在适应AI的学习曲线上:
- 斯坦福-哈佛研究的研究人员观察到,LLM的输出对提示词的表述方式高度敏感:即医生如何向AI框定输入信息和问题。研究人员表示,医院最好进行更好的提示工程:
"对临床医生进行最佳提示实践培训可能提高医生使用LLM的表现。或者,机构可以投资于预定义的提示,用于集成到临床工作流程和文档中的诊断决策支持,使工具与临床医生之间产生协同效应。"
- 一项麻省理工学院-哈佛大学的研究(Agarwal、Moehring、Rajpurkar和Salzfound)发现,尽管AI放射学工具在研究中表现优于三分之二的放射科医生,但获取AI的输出并未对研究中放射科医生的表现产生任何实质性改善。研究人员观察到,放射科医生倾向于将AI的预测和他们自己的观察视为独立的,并相互权衡。一方面,如果AI以确定性做出预测,放射科医生的预测和决策会倾向于AI的诊断,但当AI显示任何不确定性时则不会。使用AI辅助的放射科医生做出评估所需的时间也比单独工作的放射科医生更长。研究人员总结认为,这些结果共同表明:
"增加的时间成本和对AI信息的次优使用都阻碍了放射科医生在AI辅助下做出决策。实际上……病例应该要么由AI单独决定,要么由放射科医生单独决定。"
AI诊断因错误而失准
众所周知,医疗环境中使用的大型语言模型(LLM)可能存在偏见。例如,性别与推荐更昂贵医疗程序之间存在显著关联。
麻省理工学院的研究测试了非临床数据变化对一系列AI模型诊断和治疗建议的影响。研究人员以以下三种方式改变了临床环境,这些改变不会扭曲与患者诊断相关的基础临床因素(称为扰动):
- 性别:扰动包括交换男性和女性标识符以及完全去除性别标记。这测试了临床LLM如何推理女性患者和非二元性别患者。
- 语气:扰动创造了"不确定"的语言,模拟有健康焦虑的患者,以及"生动"的语言扰动,模拟具有更戏剧性倾向或可能在语气上更夸张的患者。
- 句法:扰动是文本语言中真实的句法/结构变化。较小的变化如额外空格和拼写错误,模拟技术能力较差和英语水平有限的患者,同时也反映了医疗专业人员匆忙做临床笔记时通常会犯的电子错误。
该研究在三个维度上测量了这些扰动的影响:患者是否应寻求医疗干预或可以自我管理,患者是否应就诊于全科医生或在急诊室寻求紧急干预,以及应分配给患者治疗的医疗资源。
研究发现,尽管这些扰动与诊断或治疗没有临床相关性,但它们仍然影响了模型的输出:
- 在所有九种扰动中平均而言,约7%的管理建议从"寻求医疗帮助"翻转为"自我管理",与人类基线诊断相比。这意味着,如果LLM被用作升级医疗服务的"守门人",大量患者将被拒绝接受他们本应获得的专业治疗。
- 许多单独的扰动导致临床准确率下降:去除性别标记导致8.5%的下降,拼写错误导致7%的下降,文本中额外空格导致8.7%的下降。
- AI类人的对话能力在患者互动中本应是有用的功能,但在对话环境中,扰动导致的临床准确率下降甚至更大,准确率下降接近8-10%。
- 扰动对LLM推理能力的影响对女性和非二元性别群体更为严重。当在输入测试中引入拼写错误时,男性与女性相比的临床准确率大约高出4%;当引入空格时,男性比女性高出10%以上;当去除性别时,去性别化的男性比去性别化的女性大约高出5%。这表明LLM可能仍在"猜测"患者是男性而非女性或非二元性别者。实际上,LLM似乎在假设只有两种性别,并系统性地偏爱被视为男性的患者。
- 这种影响在"就诊"任务(即"去急诊室")中尤其令人担忧,在该任务中,建议不进行临床评估会对患者结果带来切实风险。研究发现,小错误,如多余的逗号或拼写错误,更可能导致女性或非二元性别患者(尤其是英语为第二语言的患者)被建议"回家"。
- 该研究发现了特别显著的性别差异。例如,当使用生动或戏剧性语言时,女性的诊断准确率下降高达6%,进一步治疗建议下降近2%,而男性则不受影响。这表明模型可能反映了性别刻板印象——例如,将女性的症状报告视为夸张。
结论
大型语言模型(LLM)无疑是强大的医疗工具。对于常规医疗程序,它们甚至可能比单独工作的医疗从业者提供更优的结果。
然而,LLM通过产生偏见、不可预测且常常不合逻辑的结果(通常描述为"脆弱性")继续使开发者和用户感到困惑。在这些风险得到更好理解和管理之前,关键问题不仅仅是医生如何使用AI,而是AI在患者护理中何时以及是否应该取代医生。
【全文结束】