AI诊断困境：研究揭示患者诊断中的重大缺陷 - AI与医疗健康

AI诊断困境：研究揭示患者诊断中的重大缺陷AI's Diagnostic Dilemma: Study Reveals Major Shortcomings in Patient Diagnosis - The Tech Edvocate

环球医讯 / AI与医疗健康来源：www.thetechedvocate.org美国 - 英语2026-05-18 06:48:49 - 阅读时长3分钟 - 1448字

马萨诸塞州总医院布莱根分院进行的一项开创性研究对21种大型语言模型在医疗诊断领域的表现进行了全面评估，结果显示这些AI系统超过80%的时间无法提供适当的鉴别诊断，尽管Grok 4、GPT-5等部分模型在最终诊断上准确率可达60%-90%，但初始诊断能力普遍薄弱，研究强调AI缺乏医疗决策所需的细致理解能力，必须在人类监督下使用，警示医疗界不应高估AI能力而应将其视为辅助工具，并指出未来需在算法优化、数据多样性和监管框架建设方面持续努力，确保患者安全和医疗质量不受影响。

马萨诸塞州总医院布莱根分院(Mass General Brigham)研究人员进行的一项开创性研究对21个大型语言模型(LLMs)在医疗诊断领域的表现进行了严格审查。研究结果揭示了一个令人震惊的现实：包括Claude、DeepSeek、Gemini、GPT和Grok等高级版本在内的这些AI系统，超过80%的时间无法提供适当的鉴别诊断。这引发了人们对AI在无人监督的临床环境中安全性和可靠性的重大担忧。

研究及其发现

这项对AI模型的全面评估重点考察了它们辅助初级患者诊断的能力——这是医疗保健的关键方面。研究人员发现，尽管最终诊断的成功率各不相同，有些模型的准确率在60%到90%以上，但初始诊断能力却令人震惊地低下。

表现最佳者：在测试的模型中，Grok 4、GPT-5、GPT-4.5、Claude 4.5 Opus、Gemini 3.0 Flash和Gemini 3.0 Pro脱颖而出，展现出在生成正确最终诊断方面的更好性能。
附加数据的影响：当这些模型补充了实验室结果和影像数据时，其准确性显著提高，这表明AI系统在拥有全面临床信息的情况下可能表现更好。

人类监督的必要性

参与此项研究的研究人员之一迈克尔·萨奇(Michael Succi)强调了AI在临床推理方面的固有局限性。他表示，尽管AI技术取得了进步，但这些系统缺乏有效医疗决策所需的细致理解能力。"AI尚未准备好在临床环境中独立运作，"萨奇指出，他主张采用"人在循环中"的方法。这种观点表明，虽然AI可以辅助医疗专业人员，但最终的诊断决策应仍由人类掌控。

专家对AI在医学中的意见

这些发现引发了医疗界的广泛关注。西班牙家庭和社区医学学会(Spanish Society of Family and Community Medicine)的代表苏珊娜·曼索·加西亚(Susana Manso García)强调了在依赖AI进行诊断时保持谨慎的重要性。她警告公众不要高估这些技术的能力，指出虽然AI可以成为一个有价值的工具，但它不应该取代医疗专业人员的批判性思维和专业知识。

AI在医疗保健中的角色

随着人工智能的不断发展，其在医疗保健领域的潜在应用非常广泛。AI可用于数据管理、患者监测甚至辅助治疗建议等任务。然而，最近的这项研究强调了对其诊断能力保持现实期望的必要性。

补充工具：AI不应被视为取代人类临床医生的工具，而应被视为增强决策过程的补充工具。
培训与教育：必须对医疗专业人员进行如何有效将AI整合到实践中的教育，确保他们仍然是患者护理的最终决策者。

展望未来：AI在诊断领域的前景

这项研究的结果对AI技术开发者和医疗提供者都敲响了警钟。随着AI继续融入医疗实践，持续的研究和测试对于提高其准确性和可靠性至关重要。未来的工作必须集中在：

增强算法：开发更复杂的算法，以更好地模拟人类临床推理。
数据多样性：确保AI模型在多样化数据集上进行训练，以提高其在不同人群和医疗条件下的适用性。
监管框架：为临床环境中AI的使用建立明确的指导方针和法规，以确保患者安全和道德标准。

结论

马萨诸塞州总医院布莱根分院的这项研究突显了将AI整合到初级患者诊断中面临的重大挑战。虽然这项技术前景广阔，但目前的局限性强调了在临床环境中保留人类监督的必要性。随着研究人员和开发者致力于增强AI能力，医疗界必须以敏锐的眼光看待这些工具，确保患者护理仍然是首要任务。

【全文结束】