这一微小调整足以迷惑ChatGPT——可能造成生命代价
This One Twist Was Enough to Fool ChatGPT – And It Could Cost Lives
AI系统(如ChatGPT)可能在医学伦理判断中表现出惊人的缺陷——这种缺陷可能威胁生命安全。根据西奈山伊坎医学院主导的新研究,AI在面对稍作修改的经典医学伦理困境时,倾向于依赖熟悉或直觉的思维模式,甚至当这些模式与事实矛盾时也难以调整。这种"快思考"机制的失败暴露出令人担忧的认知盲区。
复杂医学伦理中的AI局限
由西奈山伊坎医学院联合以色列拉宾医疗中心等机构开展的研究发现,当前最先进的大型语言模型(LLMs)在处理复杂医学伦理问题时会出现基础性错误。这项发表于《npj数字医学》7月22日刊的研究成果,引发了关于医疗场景中AI信任度的重要讨论。
受卡尼曼理论启发:快速与慢速思维
研究基于丹尼尔·卡尼曼《思考,快与慢》中的理论框架,重点观察LLMs在面对刻意调整的医学伦理场景时,能否在快速直觉思维与慢速深度思维间灵活切换。研究共同高级作者埃亚尔·克兰医生指出:"虽然AI强大高效,但会优先选择最熟悉或直觉的答案,这种思维惯性在日常场景可能无害,但在医疗这类高风险决策领域,忽略细节可能对患者产生实质影响。"
性别偏见测试暴露AI缺陷
研究团队通过改良经典"外科医生悖论"测试AI思维定式。原始案例中,医生说"我不能给这个男孩手术,他是我的儿子",当调整为明确说明父亲是外科医生后,部分AI仍错误判断医生是男孩的母亲。这种将固有模式强加于新信息的处理方式,暴露出LLMs对上下文变化的敏感性不足。
伦理场景触发模式化错误
在另一项涉及宗教父母拒绝输血治疗的伦理测试中,尽管场景明确说明父母已同意治疗,许多AI模型仍推荐"强制干预",显示出对既有模板的过度依赖。研究共同高级作者吉里什·纳德卡尼医生强调:"AI不应替代临床决策,而应作为增强工具,尤其在需要伦理敏感度和情感智慧的场景中,人类监督至关重要。"
认知盲区需持续警惕
首席作者谢莉·索弗医生指出:"对经典案例的微小改动就能暴露临床应用不可承受的认知盲区。"研究团队计划扩展测试范围,并建立"AI可靠性实验室"系统评估模型应对真实医疗复杂性的能力。该研究论文题为《大型语言模型在医学伦理推理中的陷阱》。
参考文献:Shelly Soffer et al., "Pitfalls of large language models in medical ethics reasoning", npj Digital Medicine, 22 July 2025.
【全文结束】
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。