西奈山研究发现人工智能也会草率得出结论Like humans, AI can jump to conclusions, Mount Sinai study finds

环球医讯 / AI与医疗健康来源:www.moneycontrol.com美国 - 英语2025-07-30 02:05:33 - 阅读时长3分钟 - 1215字
西奈山研究人员发现,人工智能模型在医学伦理困境中常常失效,强调在临床决策中需要人类监督。研究通过改编著名的伦理困境和经典横向思维谜题,测试了大型语言模型在复杂伦理情境下的推理能力,揭示了其在医疗领域的关键局限性。
人工智能医学伦理患者安全人类监督临床决策医疗应用大型语言模型伦理推理陷阱西奈山研究健康影响
西奈山研究发现人工智能也会草率得出结论

西奈山伊坎医学院的研究人员与以色列拉宾医疗中心合作进行的一项开创性研究发现,即使是目前最先进的人工智能(AI)模型在处理细微的医学伦理情境时也会犯错。这项研究发表在最新一期的《NPJ数字医学》(NPJ Digital Medicine)上,突出了大型语言模型(LLMs),如ChatGPT,在面对复杂伦理情境时推理能力的关键局限性。

这项研究受到了丹尼尔·卡尼曼(Daniel Kahneman)所著《思考,快与慢》(Thinking, Fast and Slow)一书的启发。该书对比了直觉的“快思考”与分析性的“慢推理”。通过调整著名的伦理困境和经典横向思维谜题,研究团队测试了人工智能系统在这些认知模式之间切换的能力。

“人工智能可以非常强大和高效,但我们的研究表明,它可能会默认选择最熟悉或最直观的答案,即使这一回答忽略了关键细节,”西奈山温德赖希人工智能与人类健康系的生成人工智能主管、共同资深作者埃亚尔·克兰格(Eyal Klang)博士表示。“在医疗领域,决策往往具有伦理和临床上的分量,这种疏忽可能会影响患者安全。”

在一项引人注目的案例中,研究人员改编了著名的“外科医生难题”(Surgeon's Dilemma)谜题。原版谜题依赖于隐含的性别偏见,改编版本则明确指出外科医生是男孩的父亲。尽管如此,一些人工智能模型仍然错误地认为外科医生是男孩的母亲,显示出它们倾向于依赖根深蒂固的假设。

另一个测试涉及一个常见的伦理情境:信仰宗教的父母拒绝为孩子接受挽救生命的输血。当研究人员明确指出父母已经同意时,一些人工智能模型仍然建议推翻所谓的拒绝,误解了更新后的背景。

“这些结果并不意味着人工智能在医学领域没有价值,”西奈山卫生系统温德赖希系主席兼首席人工智能官、共同资深作者吉里什·N·纳德卡尼(Girish N. Nadkarni)博士表示。“但它强化了在需要情感智力、情境细微差别和伦理敏感性的领域中,人类监督的必要性。人工智能应作为临床医生的补充,而不是替代。”

拉宾医疗中心的首席作者希莉·索弗(Shelly Soffer)博士强调,措辞的微小变化足以暴露人工智能推理中的重大盲点。“这对需要细致入微的临床应用来说是一个警示,”她说。

展望未来,研究团队计划使用更复杂的现实案例扩展评估,并建立一个“人工智能保障实验室”(AI Assurance Lab),以系统地衡量人工智能在临床和伦理决策中的表现。

这项题为《大型语言模型在医学伦理推理中的陷阱》(Pitfalls of Large Language Models in Medical Ethics Reasoning)的研究由希莉·索弗(Shelly Soffer)博士、薇拉·索林(Vera Sorin)博士、吉里什·N·纳德卡尼(Girish N. Nadkarni)博士和埃亚尔·克兰格(Eyal Klang)博士共同撰写。

【全文结束】

大健康
大健康