ChatGPT医生在诊断健康问题方面表现出色，但实际医生在权衡治疗方案方面仍更胜一筹 - AI与医疗健康

一位父亲担心他两岁的孩子已经发烧两天，并且一直在拉扯一只耳朵。一位65岁的女性在晨练时感到呼吸急促，比平时更容易疲劳。两人都拿起手机，将症状输入AI聊天机器人。

"您的孩子可能患有耳部感染，"父亲得知。"您的症状可能表明存在心脏问题，"这位女性读到。

这些都是有帮助的回答——而且很可能正确。人工智能在准确诊断方面的能力正在接近，甚至在某些情况下已经超过了医生。2026年4月的一项研究发现，OpenAI的o1模型在《新英格兰医学杂志》发表的复杂诊断案例中准确率达到78%，并且在诊断实际急诊患者时也优于经验丰富的医生。同样，2024年的一项研究发现，ChatGPT在诊断复杂病例方面也优于医生——即使医生自己能够使用ChatGPT。

然而，做出正确诊断只是医生工作的一半。另一半是知道如何处理它——换句话说，决定如何管理患者的健康状况。

我是一名医生和医学教育者，研究医生如何做出这些决策，这一过程被称为"管理推理"，以及医学生如何发展这种能力。对于明确的健康问题，AI诊断可能足以让某人获得所需的护理——比如婴儿牙龈涂一点麻醉药膏，或预约心脏病专家。

但在临床实践中，不确定性很常见。通常，了解患者患病情况是必要的，但不足以确定如何照顾他们。而且，如何管理患者，即使在诊断确定后，也是一个复杂的问题。

诊断进行分类，但管理进行优先排序

有经验的医生不会从头开始评估每位患者。经过多年实践，他们建立了称为"疾病脚本"的心理捷径。

疾病脚本不仅仅是症状清单。它们捕捉了疾病通常的表现形式、哪些人容易患病以及疾病最常如何发展。当医生看到新患者时，他们会将观察到的内容与这些心理脚本进行匹配——这是一个分类和模式识别的过程。

当患者出现熟悉的症状和体征模式时，医生几乎不假思索地调用匹配的心理脚本。这使他们能够注意到不太符合的元素：不符合的症状，或患者病史中的细节——最近出国旅行、工作中不寻常的暴露——这些都可能指向不同的诊断。

AI擅长这种模式匹配过程并不奇怪。像ChatGPT这样的大型语言模型以类似的方式工作。它们基于从大量文本（包括医学文献）中学到的模式，预测句子中接下来应该出现什么词。在这些文献中，"肺炎"一词可靠地跟在某些症状模式之后：例如发烧加上胸部X光片上的模糊斑块。在这个层面上的模式匹配，本质上与医生将患者症状与疾病脚本匹配时所做的相同。

但决定下一步该做什么——该进行哪些检查、尝试哪些治疗、监测哪些内容以及跟进哪些内容——工作方式不同。医生面临的不是唯一正确的答案，而是多个合理的选择。医疗管理的艺术在于确定这些选项中哪一个对面前的患者最有利。

人类优势

那么，医生如何从诊断患者转向确定如何最好地照顾他们？答案几乎总是"视情况而定"。

考虑两个68岁的男子，Marcus和Tomás，两人刚刚被诊断出患有早期前列腺癌。他们的活检结果显示相同：局限于前列腺的缓慢生长的肿瘤。

两人都被提供了相同的两种管理选择。立即治疗，通过手术或放疗，接受尿失禁和性功能变化的风险。或者通过定期检查和活检密切监测，仅在肿瘤生长时进行治疗。一项对82,000多名早期前列腺癌男性进行15年随访的研究发现，无论选择哪条路径，每100人中死于前列腺癌的人数不到3人，尽管选择监测的男性癌症扩散的可能性大约是选择监测男性的两倍。

AI可以同时呈现这两种选择及这些统计数据。医生带来的知识是了解坐在他们面前的人。

Marcus没有其他显著的健康问题。他的医生知道这一点，并且足够了解Marcus，知道不确定性对他影响很大。对于没有其他紧迫健康问题的患者，缓慢生长的肿瘤有时间发展成更严重的问题。两种管理路径都确实合理，但Marcus无法忍受等待。知道癌症在体内，被观察但不治疗，是他无法接受的。他选择了治疗。

Tomás患有晚期心力衰竭，这是他的医生多年来一直在与他一起管理的。她知道，与这种缓慢生长的肿瘤相比，他的心脏状况对他的健康构成更直接的威胁。她也知道，他目睹了一位朋友接受放疗后身体状况恶化。积极治疗意味着要承受真正的代价，而可能永远不会获得益处。她建议积极监测。对于Tomás来说，这是正确的答案，也是一种解脱。

不同的管理决策在医学中是常态。任何患者的正确路径取决于该患者是谁以及他们重视什么，以及医生对证据可靠性和真正不确定性仍然存在的地方的判断。

评估风险和不确定性

要决定如何管理患者的病情，医生首先考虑医学文献中的证据，然后将可用的管理选项应用到患者的具体情况。这需要诚实的沟通、共同决策，共同应对风险并承认不确定性。

对于胸痛，医生使用评分工具来估计患者基于症状和检查结果短期内心脏病发作的可能性。AI可能比大多数医生更快地处理这些数字。

但在床边或诊所中的风险和不确定性很难衡量。评分系统和实践指南是为平均患者设计的——一个理想化的人，现实中并不存在。而且医生和患者对风险和不确定性的感知都受到他们经验的影响。对许多患者来说，这包括对医疗系统的长期且有正当理由的不信任历史。

AI不知道你经历过什么，也不知道你愿意接受什么样的风险权衡。它不能像好医生那样承认不确定性，随着你情况的变化，它也不会与你一起重新审视不确定性。

这就是诊断和管理分道扬镳的地方。发烧幼儿的父亲可能得到了有用的答案：AI在医学文献中见过足够多的发烧幼儿，可以做出合理的判断。但知道接下来该做什么，包括何时停止观察并开始担心，是最好与你的医生进行的对话。

Andrew Parsons是弗吉尼亚大学的医学副教授。本文转载自The Conversation，采用知识共享许可协议。评论中表达的观点和意见仅代表作者个人。

【全文结束】

ChatGPT医生在诊断健康问题方面表现出色，但实际医生在权衡治疗方案方面仍更胜一筹Dr. ChatGPT is getting remarkably good at diagnosing health problems -- but actual doctors are still better at weighing treatment options