高级人工智能工具,如大型语言模型(LLMs),正在改变我们处理信息的方式。它们可以撰写文本、总结研究,甚至回答医学问题。但研究人员开始发现可能引发严重问题的缺陷——尤其是在医疗领域。
西奈山医学院近期发表在《npj数字医学》的研究揭示,像ChatGPT这样的LLMs仍会犯基础推理错误。这些错误不是程序漏洞或数据输入问题,而是模型在掌握全部正确事实的情况下仍会出现的逻辑与伦理思维失误。
研究团队通过分析AI模型应对改编版经典伦理难题的反应得出结论。受诺贝尔奖得主丹尼尔·卡尼曼《思考,快与慢》启发,研究发现AI在快速直觉答案与缓慢理性分析间的转换存在隐患。例如在经典"外科医生困境"中,受伤男孩的父亲正是外科医生,但AI仍坚持认为手术医生必须是男孩母亲,暴露出其对刻板印象的顽固依赖。
"AI可能默认最熟悉或最直觉的答案,即便这种反应会忽略关键细节,"西奈山医学院生成式AI首席专家埃亚尔·克兰格博士指出。在医疗领域,这种思维模式可能对患者造成实际后果。
另一测试案例中,研究者将宗教父母拒绝儿童输血的情节改为父母已同意治疗,但多数AI模型仍坚持反对假想的拒绝。这表明模型受原始故事结构影响超过更新事实。
医疗伦理困境无处不在,从是否撤除生命支持系统,到平衡患者隐私与公共安全。研究共同作者、西奈山哈索·普拉特纳数字健康研究所主任吉里什·纳德卡尼博士强调:"这些工具不应被视为临床决策的替代品。"
LLMs的训练数据包含大量互联网文本,这使其可能继承人类偏见。例如将特定角色与群体关联,这种潜在关联在伦理决策中可能产生危险后果。
研究主要作者、拉宾医学中心的雪莉·索弗博士指出:"简单调整经典案例就能暴露临床实践中无法承受的盲点,这凸显在患者护理中必须保持人类监督的重要性。"
研究团队计划建立"AI保障实验室",测试不同LLMs应对临床实践中混乱且不可预测情境的能力。尽管存在挑战,研究者仍对未来保持希望——AI若能克服简单模式匹配,配合人类持续监督,有望提升诊断速度和治疗个性化水平。
【全文结束】


