慕尼黑(OTS)
- 一项新研究表明,像ChatGPT这样的AI模型可以提高放射学中的诊断准确性
- 并非所有的AI辅助形式都同样有帮助。关键在于医生是否能够理解和批判性地评估这些建议
- 简短的回答或纯列表反而可能促进错误信任
像ChatGPT这样的大型语言模型正越来越多地被讨论作为医学领域的辅助工具。它们可以总结信息、提出诊断建议,并用简单的语言解释其判断。这正是此类系统的核心承诺:它们不仅提供诊断,还能解释为什么某种诊断是正确的。然而,这些解释是否真的能帮助医生——以及哪种形式特别有用——目前尚不清楚。
慕尼黑大学、慕尼黑大学医院、卡尔斯鲁厄理工学院和拜罗伊特大学的一个研究团队现在调查了不同形式的AI解释如何影响放射学中的诊断准确性。在一项随机实验中,101名放射科医生评估了带有放射学图像的真实临床病例,例如来自计算机断层扫描(CT)或磁共振成像(MRI),并应以自由文本形式提出诊断。"在放射学中,通常需要将复杂的影像发现与临床信息结合起来,"慕尼黑大学医院的Boj Friedrich Hoppe表示。"语言模型原则上可以在这里提供支持。我们的研究表明,并非所有形式的AI辅助都同样有帮助。关键在于医生是否能够理解和批判性地评估这些建议。"
仅提供诊断是不够的
参与者被随机分为四组:一组在没有AI支持的情况下工作,另外三组则接收多模态语言模型的不同提示。AI要么只给出诊断,要么提供鉴别诊断,要么提供逐步的"思维链"解释。后者以可理解的方式解释了影像特征、临床线索和排除标准,特别有助于医生将建议与其专业知识进行核对。
"对于临床实践来说,仅有一个听起来合理的AI系统回答是不够的,"Hoppe说。"医生必须能够理解哪些线索支持某种诊断,以及可能存在哪些不确定性。"
逐步解释提高准确性
研究表明:放射科医生在使用逐步AI解释时获得了最高的诊断准确性——准确率比没有AI的对照组高出12.2个百分点。简单的诊断输出和鉴别诊断效果较差。特别是在AI建议错误的情况下,参与者更倾向于遵循鉴别诊断,这表明存在自动化偏见。相比之下,逐步解释有助于更有针对性地采纳正确线索,并更容易发现错误。
结果表明,决定性的不仅是诊断的质量,还有解释的形式。逐步推理使模型的论证更加清晰,并便于与自身专业知识进行核对。
鉴别诊断在医学中很重要。然而,在与语言模型的互动中,它们可能列出多个诊断,给人一种诊断范围已经完全覆盖的印象。这可能导致医生在罕见或复杂病例中较少思考所列诊断之外的可能性。
对医学以外的意义
尽管该研究专注于放射学,但慕尼黑大学管理学院教授、该研究的通讯作者Stefan Feuerriegel表示,其结果远远超出了这一领域。像ChatGPT这样的系统正越来越多地用于日常生活和职业中的决策。"我们的研究表明:如果用户不仅询问答案,还询问可验证的解释,他们可以更有效地利用这些系统。"关键在于互动方式。用户应主动检查AI回答。"一个好的AI回答不仅正确,而且可验证,"Feuerriegel说。
警惕听起来有说服力的错误
研究者强调,语言模型可能会犯错——无论是诊断还是其解释。特别是逐步解释可以帮助批判性地评估建议。研究表明:当建议以可理解的方式呈现时,AI才能最有效地提高诊断能力。简短的回答或纯列表反而可能促进错误信任。
出版物
Philipp Spitzer, Daniel Hendriks, Jan Rudolph, Sarah Schlaeger, Jens Ricke, Niklas Kühl, Boj Friedrich Hoppe & Stefan Feuerriegel: 《大型语言模型的医学解释对放射学诊断准确性的影响》。发表于《npj Digital Medicine》,第9卷,文章33,2026年。
联系信息
联系人:
Stefan Feuerriegel教授
慕尼黑大学人工智能管理研究所所长
电话:+491627246860
【全文结束】

