避免未来“死亡原因”是AI聊天机器人

Avoiding a future where the ‘cause of death’ is an AI chatbot | Viewpoint

美国英文科技与健康
新闻源:Chief Healthcare Executive
2025-08-02 04:55:59阅读时长3分钟1418字
AI聊天机器人医疗保健健康临床决策幻觉不一致性偏见肌肉记忆失效现实世界复杂性临床准确性

AI聊天机器人可以在诊断和护理管理方面提供帮助。但目前主流的AI聊天机器人存在一些特定问题。

在医疗保健领域,AI正受到高度关注,因为患者护理的风险极高。许多医生已经在临床环境中使用AI,我决定对生成式人工智能(通常称为AI聊天机器人或GenAI)进行测试。

结果令人担忧。

我向一个知名的免费AI聊天机器人提出了一个相对简单的医学问题:“如何治疗对青霉素过敏患者的尿路感染(UTI)?”

对于非专业人士来说,答案看似很有说服力:“氟喹诺酮类或左氧氟沙星”被列为选项之一。

第一个错误:左氧氟沙星是一种氟喹诺酮类药物,因此回答措辞不准确,可能导致读者认为左氧氟沙星不属于氟喹诺酮类。然而,我更担心的是一个医学上的严重缺陷:没有考虑到孕妇的情况。

简单来说,氟喹诺酮类药物可能对胎儿造成严重伤害。如果患者怀孕,医生盲目遵循这一建议可能会对婴儿健康造成极大危害。AI聊天机器人未能考虑这一基本背景,因为它无法理解这一细节的重要性。为什么它会知道呢?它没有真正的临床经验来应对医学培训所涵盖的各种检查点,也没有多年临床实践所带来的推理和判断能力。

尽管如此,当与其他技术结合时,GenAI工具有潜力超越医生和护士单独决策的能力,增强临床决策。

目前,AI聊天机器人可以在诊断和护理管理方面提供帮助。根据越来越多的研究,它们在医学委员会考试中表现良好。但数据并不能说明全部情况。

目前主流的AI聊天机器人存在几个具体问题,表明该技术尚未准备好在医疗前线的临床决策中发挥重要作用。

幻觉

作为任何GenAI平台最广为人知的风险,尽管AI聊天机器人的发展速度惊人,幻觉问题仍然存在。

而且幻觉并不总是容易识别——即使是那些确信自己能够发现幻觉的临床医生也难以做到。我们不能将区分真假的责任推给忙碌的医生,他们往往只有几秒钟的时间做出判断。

GenAI模型有时会包含参考文献,但临床医生不太可能始终验证原始资料是否有效或属于幻觉。我已经遇到过引用看似可信却根本不存在的研究案例。在其他情况下,即使有效的参考文献也可能不够全面,无法完全反映某一主题的已知信息。

不一致性

如果你某天向AI聊天机器人提问,之后再次尝试相同的提示,你可能会得到两个在意义上明显不同的回答。从基本统计学角度来看,GenAI的输出可能差异很大,这应引起医生和患者的严重关注。

偏见

GenAI平台容易出现各种偏见。严重的种族偏见例子表明,提示词的措辞不仅会影响回答,还可能导致临床上有显著差异的回答。([研究1](

更微妙的偏见潜藏在模型必须做出的优先级决策中。例如,当模型遇到研究中的相互矛盾证据时,如何始终选择最可信的信息来源?至少目前,AI聊天机器人无法进行关键的同行评审以评估证据。也有报道称存在[因偏见导致的人为判断错误](

肌肉记忆失效

AI聊天机器人以几乎即时的答案让医疗用户感到惊叹,即使这些答案有时并不准确。虽然医生是最终的决策者,但他们可能会习惯于提问并实施回答,逐渐形成一种信任的“肌肉记忆”,久而久之,对所提供的建议减少审查和思考。

这为监管者评估决策过程带来了全新的维度,更不用说医疗错误带来的未知法律领域。

现实世界的复杂性

诊断和治疗疾病可能需要随着时间逐步完成,因为信息会不断变化。虽然GenAI模型可以处理整洁的临床考试案例,但在实际患者护理过程中,面对杂乱且不断演化的现实数据时,它们的表现大幅下降。([研究1](

在一个错误回答可能带来严重后果的领域,直面这些问题将有助于构建正确使用医疗生成式AI的路线图。

通过适当的审查和流程确保临床准确性,AI聊天机器人结合其他技术可以实时改善医生与患者的互动,指导后续问题,牢记背景信息,并利用最佳证据协助护理。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。