先进AI模型在医学诊断中表现超越人类An advanced AI model outperforms medical diagnosis

环球医讯 / AI与医疗健康来源:sciencemediacentre.es西班牙 - 英语2026-05-20 16:46:24 - 阅读时长5分钟 - 2082字
最新研究显示,一种先进的大型语言模型在医学诊断能力上能够匹配甚至超越人类医生,研究团队通过六项实验评估了该AI模型在标准化临床病例和真实急诊记录上的表现,结果显示该模型在大多数情况下诊断准确率高达98%,特别是在信息稀缺的急诊分诊初期阶段表现突出,但研究也指出该模型仅处理文本信息而缺乏临床实践中必需的视觉和听觉线索,专家们认为AI应作为医生的辅助工具而非替代品,用于提供第二意见、预警系统和推理辅助,特别是在高压信息有限的情况下,医生与AI的结合将产生最佳诊断效果,该研究发表在《科学》杂志上,为AI在医疗领域的应用提供了重要参考。
AI医学诊断临床推理急诊分诊医生辅助工具大型语言模型(LLM)医学认知任务患者安全护理
先进AI模型在医学诊断中表现超越人类

人工智能(AI)在医学诊断中的应用主要集中在计算和数据处理方面。发表在《科学》杂志上的研究评估了一种先进大型语言模型的诊断能力,该模型成功匹配甚至超越了人类专业人士的表现。研究团队进行了六项实验,包括标准临床病例和使用急诊科记录的真实病例研究,以数百名医生的表现为基准。该AI在不确定性情况下特别有用,例如急诊科分诊的初始阶段。然而,作者强调,该模型仅处理文本,而临床实践还依赖于视觉和听觉线索。

专家反应

伊格纳西奥·米兰达·戈麦斯(国际乳腺癌中心(IBCC)和巴塞罗那Teknon医疗中心乳腺影像科主任):

该研究考察了先进语言模型(LLM)能否执行与医生水平相当的临床推理任务。主要发现是该模型在各种测试中匹配或超越了专业人士,包括一些真实急诊情况。

为评估其性能,研究人员将该模型与数百名医生在六类任务上进行了比较:复杂病例诊断、临床推理解释、治疗决策、经典诊断病例、概率估计和真实急诊情况。

结果显示极高性能:该模型在大多数病例中正确诊断(包括接近正确诊断时高达近98%),正确选择医学检查,在临床推理中获得接近完美的分数,并在治疗决策上超越医生。在急诊情况中,它也显示出相当甚至更优的表现,特别是在信息稀缺的早期阶段。

然而,该研究有重大局限性:仅基于文本,使用的病例比实际临床实践更结构化(更"整洁"的病例),未涵盖医学所有领域,且不能替代全面临床判断。

总之,这些模型已超过许多经典医学推理标准,可能改善诊断和决策。尽管如此,仍需在真实环境中验证,我们需要定义如何安全地整合它们。

核心思想不是取代医生,而是将AI用作强大支持工具,特别是在复杂或不确定的情况下。

该研究质量很高。设计良好,直接与医生比较,包含不同类型的测试甚至真实急诊病例。尽管如此,它不是决定性证据,而是受控条件下能力的坚实证明。

如前所述,它有一些重大局限性。它仅分析文本(无体格检查或影像),使用比真实临床实践更有条理的病例,且未测量是否改善患者结果。此外,与医生的比较有些人为化,未深入探讨关键错误。简言之,它评估的是理论性能而非实际临床实践。

在影响方面,它确认AI在医学认知任务中已经具有竞争力,并改进了先前研究中所见的表现。然而,在广泛采用之前,仍需真实临床试验、安全验证和患者影响证据。

如我所提到的,最现实的整合方式不是取代医生,而是将AI用作第二意见、预警系统、推理辅助和分诊支持的工具,特别是在信息有限的高压情况下。关键是将其用作"副驾驶",而非自主运行。

医生的角色发生变化,但仍然至关重要。将减少对记忆或列出诊断的强调,而更多关注整合复杂信息、做决策、与患者互动和监督AI。总体而言,最可能的情况是医生+AI组合将明显优于单独的任何一方。

尤恩·哈里森(爱丁堡大学外科和数据科学教授,医学信息学中心联合主任):

这是一项重要研究,表明现代AI系统可以很好地完成医生和护士的核心任务之一:根据患者的可用信息建议应考虑的诊断。

这很重要——这些系统不再只是通过医学考试或解决人工测试案例。它们开始看起来像是对临床医生有用的第二意见工具,特别是当需要考虑更广泛的可能诊断并避免遗漏重要事项时。

但这并不意味着应该不加限制地快速将AI引入临床护理。产生良好的可能诊断列表并不等同于改善患者护理。我们仍需研究表明,这些工具帮助医生和护士做出更好的决策,减少伤害,避免不必要的检查,并在繁忙的医院和全科诊所中安全工作。

该研究推动了该领域的发展,但其本身并不改变临床实践。负责任的途径不是禁止这些系统,也不是让它们随意使用。它们应在真实临床环境中测试,用作第二意见工具而非临床医生的替代品,并针对真正对患者重要的结果进行监控:更好、更安全、更快的护理。

魏星(谢菲尔德大学数学与物理科学学院助理教授):

这是迄今为止对LLM在临床推理中最大规模的评估之一,纳入真实急诊科数据是真正的进步。然而,论文中的两个发现值得比它们所获得的更多审视。在一个管理推理实验中,使用GPT-4的医生得分为41%,不比单独使用GPT-4的42%更好,但远高于没有AI的医生的34%,这表明医生可能会无意识地倾向于AI的答案,而不是独立思考。随着AI在临床环境中更常规地使用,这种倾向可能会变得更加重要。

来自单一精英学术中心76名患者的现实世界数据讲述了一个比标题更复杂的故事:o1在分诊病例中识别出正确诊断的比例为67%,而两位主治医生分别为55%和50%,这是一个真正的差距,但没有伴随分析说明模型在哪里或对谁失败。错误是否集中在老年患者、非英语使用者或具有非典型表现的患者中仍然完全未知,如果没有这种分析,高平均准确率提供的保证有限。这项研究证明,LLM可以在受控条件下在结构化的基于文本的推理任务上超越医生。它没有证明AI适合常规临床使用,也没有证明公众应该将免费可用的AI工具作为医疗建议的替代品。

出版物信息

期刊:《科学》

发表日期:2026年04月30日

作者:彼得·G·布罗迪尔等人

研究类型:研究文章,同行评议

【全文结束】