诊断错误是日常医疗实践中最严重的问题之一。人工智能系统——尤其是像ChatGPT-4、Gemini或Claude 3这样的大型语言模型(LLMs)——提供了新的方法来高效支持医学诊断。然而,这些系统也带来了相当大的风险——例如,它们可能会“幻觉”并生成虚假信息。此外,它们会再现现有的社会或医学偏见,并且会犯一些常常让人类困惑的错误。
一个国际研究团队,由马克斯·普朗克人类发展研究所领导,并与旧金山的人类诊断项目和意大利国家研究委员会认知科学和技术研究所合作,研究了人类和AI如何最佳协作。结果表明:由人类专家和AI系统组成的混合诊断集体比仅由人类或AI组成的集体显著更准确。这尤其适用于复杂、开放性的诊断问题,而不是简单的对错决策。“我们的结果显示,人类和AI模型的合作具有巨大的潜力来提高患者的安全性。”马克斯·普朗克人类发展研究所适应理性中心的博士后研究员尼古拉斯·佐勒说。
使用超过2,100个临床案例进行的现实模拟
研究人员使用了来自人类诊断项目的数据,该项目提供了临床案例简述——即医学病例研究的简短描述——以及正确的诊断结果。通过使用超过2,100个这样的案例,该研究比较了医学专业人士和五个领先AI模型的诊断结果。在核心实验中,模拟了各种诊断集体:个人、人类集体、AI模型和混合人类-AI集体。总共分析了超过40,000个诊断结果。每个结果都根据国际医学标准(SNOMED CT)进行了分类和评估。
人类和机器互补——甚至在他们的错误中也是如此
研究表明,结合多个AI模型可以提高诊断质量。平均而言,AI集体的表现优于85%的人类诊断者。然而,在许多情况下,人类表现得更好。有趣的是,当AI失败时,人类往往知道正确的诊断结果。
最大的惊喜是,将两个世界结合起来导致了准确性显著提高。即使在一个由人类诊断者组成的小组中添加一个AI模型——或者反之亦然——也会显著改善结果。最可靠的结果来自涉及多个AI和多个AI的集体决策。解释是,人类和AI会系统地犯不同的错误。当AI失败时,一个人类专业人员可以弥补这个错误——反之亦然。这种所谓的错误互补性使混合集体如此强大。“这不是要用机器取代人类。相反,我们应该将人工智能视为一种补充工具,它在集体决策中发挥其全部潜力。”马克斯·普朗克人类发展研究所高级研究员斯特凡·赫尔佐格说。
然而,研究人员也强调了他们工作的局限性。该研究仅考虑了基于文本的案例简述——而不是实际患者在真实临床环境中的情况。未来的研究需要解决这些结果是否可以直接应用于实践的问题。同样,该研究仅关注诊断,而非治疗,而正确的诊断并不一定保证最佳的治疗。
此外,AI支持系统在实践中被医务人员和患者接受的程度仍不确定。AI和人类可能存在的偏见和歧视风险,特别是在种族、社会或性别差异方面,也需要进一步研究。
混合人类-AI集体的广泛应用
该研究是“开放决策中的混合人类-人工智能集体智能”(HACID)项目的一部分,该项目由Horizon Europe资助,旨在通过智能整合人类和机器智能来促进未来临床决策支持系统的发展。研究人员特别看到了在医疗资源有限地区的潜力。混合人类-AI集体可以在这些地区为更大的医疗公平做出重要贡献。
“这种方法也可以转移到其他关键领域——如法律系统、灾害响应或气候政策——任何需要复杂、高风险决策的地方。例如,HACID项目还在开发增强气候适应决策的工具。”HACID项目的协调员维托·特里安尼说。
简要总结:
- 由人类和AI组成的混合诊断集体比单独的医学专业人士或AI系统更准确地做出诊断——因为他们系统地犯不同的错误,这些错误相互抵消。
- 该研究分析了人类和机器对超过2,100个现实临床案例作出的超过40,000个诊断。
- 在人类集体中添加一个AI模型——或者反之亦然——明显提高了诊断质量;由几个AI和人类共同做出的混合集体决策取得了最佳结果。
- 这些发现突显了提高患者安全和更公平医疗服务的潜力,尤其是在服务不足的地区。然而,还需要进一步研究实际实施和伦理考虑。
(全文结束)


