AI诊断困境:研究揭示患者诊断中的重大缺陷AI's Diagnostic Dilemma: Study Reveals Major Shortcomings in Patient Diagnosis - The Tech Edvocate

环球医讯 / AI与医疗健康来源:www.thetechedvocate.org美国 - 英语2026-05-18 06:48:49 - 阅读时长3分钟 - 1448字
马萨诸塞州总医院布莱根分院进行的一项开创性研究对21种大型语言模型在医疗诊断领域的表现进行了全面评估,结果显示这些AI系统超过80%的时间无法提供适当的鉴别诊断,尽管Grok 4、GPT-5等部分模型在最终诊断上准确率可达60%-90%,但初始诊断能力普遍薄弱,研究强调AI缺乏医疗决策所需的细致理解能力,必须在人类监督下使用,警示医疗界不应高估AI能力而应将其视为辅助工具,并指出未来需在算法优化、数据多样性和监管框架建设方面持续努力,确保患者安全和医疗质量不受影响。
AI医疗诊断鉴别诊断临床安全性人类监督医疗决策患者护理AI辅助医疗临床推理医疗AI局限性
AI诊断困境:研究揭示患者诊断中的重大缺陷

马萨诸塞州总医院布莱根分院(Mass General Brigham)研究人员进行的一项开创性研究对21个大型语言模型(LLMs)在医疗诊断领域的表现进行了严格审查。研究结果揭示了一个令人震惊的现实:包括Claude、DeepSeek、Gemini、GPT和Grok等高级版本在内的这些AI系统,超过80%的时间无法提供适当的鉴别诊断。这引发了人们对AI在无人监督的临床环境中安全性和可靠性的重大担忧。

研究及其发现

这项对AI模型的全面评估重点考察了它们辅助初级患者诊断的能力——这是医疗保健的关键方面。研究人员发现,尽管最终诊断的成功率各不相同,有些模型的准确率在60%到90%以上,但初始诊断能力却令人震惊地低下。

  • 表现最佳者:在测试的模型中,Grok 4、GPT-5、GPT-4.5、Claude 4.5 Opus、Gemini 3.0 Flash和Gemini 3.0 Pro脱颖而出,展现出在生成正确最终诊断方面的更好性能。
  • 附加数据的影响:当这些模型补充了实验室结果和影像数据时,其准确性显著提高,这表明AI系统在拥有全面临床信息的情况下可能表现更好。

人类监督的必要性

参与此项研究的研究人员之一迈克尔·萨奇(Michael Succi)强调了AI在临床推理方面的固有局限性。他表示,尽管AI技术取得了进步,但这些系统缺乏有效医疗决策所需的细致理解能力。"AI尚未准备好在临床环境中独立运作,"萨奇指出,他主张采用"人在循环中"的方法。这种观点表明,虽然AI可以辅助医疗专业人员,但最终的诊断决策应仍由人类掌控。

专家对AI在医学中的意见

这些发现引发了医疗界的广泛关注。西班牙家庭和社区医学学会(Spanish Society of Family and Community Medicine)的代表苏珊娜·曼索·加西亚(Susana Manso García)强调了在依赖AI进行诊断时保持谨慎的重要性。她警告公众不要高估这些技术的能力,指出虽然AI可以成为一个有价值的工具,但它不应该取代医疗专业人员的批判性思维和专业知识。

AI在医疗保健中的角色

随着人工智能的不断发展,其在医疗保健领域的潜在应用非常广泛。AI可用于数据管理、患者监测甚至辅助治疗建议等任务。然而,最近的这项研究强调了对其诊断能力保持现实期望的必要性。

  • 补充工具:AI不应被视为取代人类临床医生的工具,而应被视为增强决策过程的补充工具。
  • 培训与教育:必须对医疗专业人员进行如何有效将AI整合到实践中的教育,确保他们仍然是患者护理的最终决策者。

展望未来:AI在诊断领域的前景

这项研究的结果对AI技术开发者和医疗提供者都敲响了警钟。随着AI继续融入医疗实践,持续的研究和测试对于提高其准确性和可靠性至关重要。未来的工作必须集中在:

  • 增强算法:开发更复杂的算法,以更好地模拟人类临床推理。
  • 数据多样性:确保AI模型在多样化数据集上进行训练,以提高其在不同人群和医疗条件下的适用性。
  • 监管框架:为临床环境中AI的使用建立明确的指导方针和法规,以确保患者安全和道德标准。

结论

马萨诸塞州总医院布莱根分院的这项研究突显了将AI整合到初级患者诊断中面临的重大挑战。虽然这项技术前景广阔,但目前的局限性强调了在临床环境中保留人类监督的必要性。随着研究人员和开发者致力于增强AI能力,医疗界必须以敏锐的眼光看待这些工具,确保患者护理仍然是首要任务。

【全文结束】