人工智能(AI)正在迅速改变医疗保健行业。AI系统现在可以从视网膜照片中检测糖尿病眼病,并分析CT图像以发现早期肺癌和中风的迹象。
目前,在全国乃至世界各地的医院中,专业算法正悄然协助医生,优先处理紧急扫描,并标记出可能被忽视的细微异常。这些专业AI工具——通常在数百万精确分类的医学图像上进行训练——正越来越多地整合到实际临床实践中。
与此同时,另一种形式的AI引起了公众的关注:大型语言模型(LLMs)。这些广泛可访问的系统,如ChatGPT和Claude,可以分析文本和图像。理论上,这些能力应该使它们非常适合医疗任务,但通用AI平台在医疗诊断方面的可靠性如何?
由纽约理工学院骨科医学院(NYITCOM)副教授米兰·托马(Milan Toma, Ph.D.)领导的一项新研究表明情况并非如此。正如在学术期刊《算法》(Algorithms)中所见,托马和他的合著者,包括NYITCOM高级开发安全运营工程师米希尔·马塔利亚(Mihir Matalia)和医学生孙俊洪(Sungjoon Hong),测试了一些世界上最先进的多模态LLMS(GPT-5、Gemini 3 Pro、Llama 4 Maverick、Grok4和Claude Opus 4.5 Extended)的可靠性。
研究人员为每个AI模型提供相同的CT脑部扫描图像,显示清晰的颅内病理。然后,他们要求模型像放射科医生一样分析图像——识别所用的成像技术、脑部病理位置、主要诊断、关键特征和潜在的替代诊断。总体而言,研究结果显示AI模型的基本诊断错误率达到20%,且在解释和评估方面存在令人担忧的差异。
起初,这些模型产生了令人鼓舞的结果,所有五个模型都正确识别了图像为CT脑部扫描。四个模型还检测到了一个关键发现:左大脑中动脉附近的缺血性中风。然而,其中一个模型犯了一个基本错误,错误地将中风归类为脑部另一侧的出血。在实际临床环境中,这一错误可能会显著影响患者的健康,因为缺血性中风和出血性中风需要不同的治疗方法。
即使在四个得出正确诊断的AI模型中,它们的解释也大相径庭。一些对中风首次发生时间提供了不同的解释;其他模型则在替代诊断、受影响的额外脑区以及钙化方面存在分歧。研究人员随后引入了一个新奇的环节:他们要求每个AI模型对其他模型的诊断解释进行评分。这种交叉评估暴露了更多的不一致性,有些模型评分比其他模型更为严格。一个模型甚至认为这些发现显示的是慢性脑部异常,而非急性中风,因此系统地惩罚了其他模型的回应。
近年来,托马发表了30多篇关于AI在医疗诊断和医疗保健方面的同行评审研究,以及两本相关主题的书籍。
"我们的研究突显了AI领域的一个关键区别。大多数成功的医疗AI工具是任务特定的算法,在大量标记的医学图像数据集上进行训练,并针对非常特定的诊断任务进行验证,"托马说。"然而,大型语言模型并未针对诊断进行优化——它们是为语言学和对话而构建的。因此,它们生成的解释听起来很有权威性,即使其基本解释是错误的或不一致的。"
托马和他的合著者得出结论,医疗AI的未来可能会结合专业诊断系统和语言模型。然而,虽然LLMs可能对临床文档、总结报告或与患者沟通有用,但所有诊断解释都必须由医学专家进行监督,这是不可协商的。
【全文结束】

