研究人员一直在研究像 ChatGPT 这样的人工智能聊天机器人是否能成为临床决策的有用工具。早期研究结果表明,人工智能聊天机器人在这一领域展现出了一定的能力,但普遍认为这些工具在医院和卫生系统中快速且复杂的决策过程中还不够可靠。
去年 12 月发表在《JAMA 内科学》上的一封研究信中,波士顿贝斯以色列女执事医疗中心(BIDMC)的医生科学家们使用评估医生的标准,直接比较了聊天机器人的大型语言模型(LLM)推理能力和人类的表现。
研究人员发现,聊天机器人得分最高,LLM 的中位数得分为 10 分(满分 10 分),主治医生为 9 分,住院医生为 8 分。但在诊断准确性(即正确诊断在他们提供的诊断列表中的排名)和正确的临床推理方面,人类和机器人之间更像是平局。
但该研究的另一个关键点——即机器人“完全错误”,并且在回答中出现错误推理的情况更多(明显多于住院医生)——似乎没有引起太多关注。贝斯以色列女执事医疗中心 4 月份的一份后续报告指出:“这一发现强调了这样一个概念,即人工智能可能最有用的是作为增强而非取代人类推理过程的工具。”
聊天机器人在决策中的使用情况
能够用于临床决策的公开可用的人工智能工具迅速增多,这引发了医生是否将聊天机器人用于此目的的问题。
根据 Fierce Healthcare 和医生社交网络 Sermo 最近对 100 多名医生的调查数据,答案似乎是“是”。只有报告使用通用大型语言模型(LLM)的医生才能参与调查。报告指出,一些医生正在转向非临床用途的工具来做出临床决策。
调查结果包括:
- 76%的受访者 表示在临床决策中使用通用 LLM。
- 超过 60%的医生 报告使用像 ChatGPT 这样的 LLM 来检查药物相互作用。
- 超过一半 使用 LLM 获得诊断支持。
- 近一半 使用 LLM 生成临床文档。
- 70% 使用 LLM 进行患者教育。
重要的是,几乎所有的受访者(97%)都表示他们会对 LLM 的输出进行一定的审查。四分之三的人使用临床决策支持工具,60%使用谷歌和同行评审研究,近一半会咨询同行或同事。
调查的 4 个要点
1 | 用户需谨慎
公开可用的人工智能聊天机器人的部分吸引力在于它们易于访问和查询。像 ChatGPT 这样的通用 LLM 是基于在线公开信息进行训练的,可能会参考不准确的、由人工智能生成的内容,并且不会实时更新。这意味着其输出可能不可靠。防火墙数据库,包括通常需要收费的医学知识数据库和科学期刊,都被排除在聊天机器人的结果之外。
2 |仍需改进
医生们探索人工智能聊天机器人在临床决策中的潜在益处和局限性并不令人惊讶。但正如 Sermo 医疗咨询委员会的妇科医生 Sara Farag 博士在 Fierce 的报告中所指出的,LLM 模型需要专门为医疗决策进行优化,才能对患者管理有用。
3 |细节和背景至关重要
在聊天机器人查询中遗漏细节或背景可能导致结果不准确或危险。Wolters Kluwer 的首席医疗官 Peter Bonis 博士在试用微软的 Copilot(一个由人工智能驱动的数字助手)并询问如何治疗一名假设的尿路感染患者时,故意遗漏了一个关键细节——患者怀孕了。聊天机器人推荐的抗生素可能会对胎儿造成风险。
4 |不要忽视人的因素
美国医院协会的首席医师执行官 Chris DeRienzo 指出,像人工智能这样的技术在我们的医疗保健体验中越来越核心。“然而,当我们让技术自行其是时,我们确实存在风险,就像一个没有指挥的管弦乐队……医疗保健始终是,也将永远是一种独特的人类体验。这就是为什么我们需要[讨论这些问题]。因为我们不能在技术和人性之间失去平衡,”DeRienzo 说。


