AI医生聊天可能正在害死你 - AI与医疗健康

AI医生聊天可能正在害死你Dr Chat could be killing you – Gadget

环球医讯 / AI与医疗健康来源：gadget.co.za南非 - 英语2026-05-11 21:21:12 - 阅读时长3分钟 - 1376字

纽约理工学院骨科医学院(NYITCOM)副教授米兰·托马(Milan Toma)领导的研究表明，当前流行的大型语言模型(LLMs)如ChatGPT、Claude等在医疗诊断方面存在严重缺陷，基本诊断错误率高达20%，且各模型对同一病例的解释差异巨大。研究强调，虽然专用医疗AI工具已在临床实践中广泛应用，但通用语言模型并非为诊断设计，它们会生成听起来权威但实际上可能错误或不一致的解释，因此所有医疗诊断必须由专业医生监督，这是不可协商的安全底线。

人工智能(AI)正在迅速改变医疗保健行业。AI系统现在可以从视网膜照片中检测糖尿病眼病，并分析CT图像以发现早期肺癌和中风的迹象。

目前，在全国乃至世界各地的医院中，专业算法正悄然协助医生，优先处理紧急扫描，并标记出可能被忽视的细微异常。这些专业AI工具——通常在数百万精确分类的医学图像上进行训练——正越来越多地整合到实际临床实践中。

与此同时，另一种形式的AI引起了公众的关注：大型语言模型(LLMs)。这些广泛可访问的系统，如ChatGPT和Claude，可以分析文本和图像。理论上，这些能力应该使它们非常适合医疗任务，但通用AI平台在医疗诊断方面的可靠性如何？

由纽约理工学院骨科医学院(NYITCOM)副教授米兰·托马(Milan Toma, Ph.D.)领导的一项新研究表明情况并非如此。正如在学术期刊《算法》(Algorithms)中所见，托马和他的合著者，包括NYITCOM高级开发安全运营工程师米希尔·马塔利亚(Mihir Matalia)和医学生孙俊洪(Sungjoon Hong)，测试了一些世界上最先进的多模态LLMS(GPT-5、Gemini 3 Pro、Llama 4 Maverick、Grok4和Claude Opus 4.5 Extended)的可靠性。

研究人员为每个AI模型提供相同的CT脑部扫描图像，显示清晰的颅内病理。然后，他们要求模型像放射科医生一样分析图像——识别所用的成像技术、脑部病理位置、主要诊断、关键特征和潜在的替代诊断。总体而言，研究结果显示AI模型的基本诊断错误率达到20%，且在解释和评估方面存在令人担忧的差异。

起初，这些模型产生了令人鼓舞的结果，所有五个模型都正确识别了图像为CT脑部扫描。四个模型还检测到了一个关键发现：左大脑中动脉附近的缺血性中风。然而，其中一个模型犯了一个基本错误，错误地将中风归类为脑部另一侧的出血。在实际临床环境中，这一错误可能会显著影响患者的健康，因为缺血性中风和出血性中风需要不同的治疗方法。

即使在四个得出正确诊断的AI模型中，它们的解释也大相径庭。一些对中风首次发生时间提供了不同的解释；其他模型则在替代诊断、受影响的额外脑区以及钙化方面存在分歧。研究人员随后引入了一个新奇的环节：他们要求每个AI模型对其他模型的诊断解释进行评分。这种交叉评估暴露了更多的不一致性，有些模型评分比其他模型更为严格。一个模型甚至认为这些发现显示的是慢性脑部异常，而非急性中风，因此系统地惩罚了其他模型的回应。

近年来，托马发表了30多篇关于AI在医疗诊断和医疗保健方面的同行评审研究，以及两本相关主题的书籍。

"我们的研究突显了AI领域的一个关键区别。大多数成功的医疗AI工具是任务特定的算法，在大量标记的医学图像数据集上进行训练，并针对非常特定的诊断任务进行验证，"托马说。"然而，大型语言模型并未针对诊断进行优化——它们是为语言学和对话而构建的。因此，它们生成的解释听起来很有权威性，即使其基本解释是错误的或不一致的。"

托马和他的合著者得出结论，医疗AI的未来可能会结合专业诊断系统和语言模型。然而，虽然LLMs可能对临床文档、总结报告或与患者沟通有用，但所有诊断解释都必须由医学专家进行监督，这是不可协商的。

【全文结束】