大型语言模型在诊断准确性方面有所提高,但在应对不确定性所需的临床推理核心能力上仍然不足,马萨诸塞州总医院布里格姆医疗系统的一项研究指出。
本月早些时候发表在《美国医学会杂志网络公开》上的这份报告评估了21种AI模型在结构化患者场景中的表现,发现尽管在提供完整信息的情况下,这些系统通常能够得出正确的最终诊断,但它们在早期、以推理驱动的步骤(如生成适当的鉴别诊断)上仍然存在困难。
当提供完整的临床信息时,这些模型在90%以上的病例中能够识别出正确诊断。然而,在诊断过程的早期阶段,其表现显著下降。
"通过逐步评估大型语言模型,我们不再将它们视为应试者,而是将它们置于医生的位置,"哈佛医学院的医学博士-哲学博士生、主要作者Arya Rao在一份声明中表示。"当数据完整时,这些模型很擅长命名最终诊断,但在病例的开放式开端,当信息不多时,它们却表现不佳。"
总体而言,模型在生成适当的鉴别诊断方面存在困难——鉴别诊断是指导进一步测试和临床决策的可能疾病清单,在大多数情况下无法完成这一任务。
报告指出,这一差距非常重要,因为鉴别诊断是临床推理的基础步骤。医生通常从不完整的信息开始,权衡多种可能性,并随着新数据的出现而完善它们。
研究发现,相比之下,AI系统倾向于过快地集中于单一答案,而不是保持不确定性并探索其他可能性。
为了更好地捕捉这些差异,研究人员开发了一种新的评估框架,旨在评估包括初始假设生成、测试选择、最终诊断和治疗计划在内的多个护理阶段的表现。
该框架旨在提供比传统准确性指标更细致的临床能力视图,后者可能会掩盖中间推理步骤中的弱点。
研究结果表明,当前模型更适合确认诊断而非生成诊断。随着引入额外的结构化数据(如实验室结果和影像学),性能明显提高,这表明模型严重依赖完整的输入才能得出准确的结论。
较新版本的模型通常比早期版本表现更好,反映了能力的逐步进步,但推理方面的基本限制仍然存在。
对医疗机构而言,这些发现有两方面的影响。一方面,高正确最终诊断率强化了AI作为临床支持工具的潜力,特别是在数据丰富的环境中,全面的患者信息可用。
另一方面,在现实世界环境中,无法可靠地处理早期诊断推理的问题引发了对过度依赖这些系统的担忧,在这些环境中,信息通常不完整且存在模糊性。
研究人员指出,当前的AI系统尚未准备好在临床环境中独立运行,而应被用来增强而非取代人类判断。
"我们希望帮助区分这些工具在医疗保健应用中的炒作与现实,"Rao表示。"我们的结果强化了这样一个观点:医疗保健中的大型语言模型仍需要人类参与和非常密切的监督。"
【全文结束】

