根据新的研究,医生在面对临床决策时可能会从大型语言模型(LLM)的辅助中受益。
由斯坦福大学医学院助理教授陈宗辉(Jonathan H. Chen,MD,PhD)领导的研究团队正在探索聊天机器人(一种大型语言模型)能否有效地回答这些较为复杂的问题,以及在聊天机器人的支持下医生的表现是否会更好。
事实证明,答案是肯定的。研究团队测试了聊天机器人在面对各种临床决策时的表现。结果表明,仅依靠互联网搜索和医学参考文献的医生的表现不如聊天机器人。然而,当医生们配备了他们自己的大型语言模型后,来自美国多个地区和机构的医生们的表现与聊天机器人相当。
“多年来我一直认为,人类加上计算机的组合会比单独的任何一方表现得更好,”陈宗辉说。“我认为这项研究促使我们更加批判性地思考这个问题,并问自己,‘计算机擅长什么?人类擅长什么?’我们可能需要重新考虑在哪里使用和结合这些技能,以及为哪些任务招募AI。”
该研究结果于2月5日发表在《自然医学》(Nature Medicine)上。陈宗辉和哈佛大学助理教授亚当·罗德曼(Adam Rodman,MD)是共同资深作者。博士后学者伊桑·戈(Ethan Goh,MD)和罗伯特·加洛(Robert Gallo,MD)是共同第一作者。
聊天机器人的助力
2024年10月,该团队在《JAMA网络开放》(JAMA Network Open)上发表了一项研究,测试了聊天机器人在诊断疾病方面的表现,发现其准确性高于医生,即使医生也在使用聊天机器人。当前的论文深入探讨了医学中更为复杂的一面,评估了聊天机器人和医生在被称为“临床管理推理”的问题上的表现。
伊桑·戈解释了两者的区别:想象一下,你在使用手机上的地图应用程序来引导你到达某个目的地。使用大型语言模型来诊断疾病类似于使用地图来确定正确的位置。而如何到达那里则是管理推理部分——你会因为交通而选择小路吗?还是继续沿着大路前行?或者等待交通状况好转?
在医疗环境中,这些决定可能变得复杂。假设一名医生偶然发现住院患者在肺部上部有一个较大的肿块。接下来应该采取什么步骤?医生(或聊天机器人)应该认识到,肺部上叶的大结节在统计上有较高的几率扩散到全身。医生可以选择立即对肿块进行活检,安排稍后的手术,或者进行影像检查以了解更多情况。
确定哪种方法最适合患者取决于一系列细节,从患者的已知偏好开始。患者是否不愿意接受侵入性程序?患者的病史是否有不按时复诊的情况?医院的健康系统在组织后续预约方面是否可靠?转诊情况如何?这些类型的背景因素是至关重要的,陈宗辉表示。
研究团队设计了一个试验,以研究三个组别在临床管理推理方面的表现:仅使用聊天机器人、46名有聊天机器人支持的医生和46名仅有互联网搜索和医学参考文献支持的医生。他们选择了五个匿名患者案例,并将其提供给聊天机器人和医生,所有参与者都提供了书面回应,详细说明他们在每个案例中会做什么、为什么以及在做决定时考虑了哪些因素。
此外,研究人员邀请了一组认证医生制定评分标准,以评估医疗判断或决策是否适当。然后根据评分标准对这些决策进行了评分。
令研究团队惊讶的是,聊天机器人在评分表上的得分超过了仅有互联网和医学参考文献支持的医生。但与聊天机器人合作的医生表现与聊天机器人一样好。
未来的聊天机器人医生?
医生与聊天机器人合作取得良好效果的确切原因尚待讨论。使用大型语言模型是否迫使医生更加仔细地思考病例?还是大型语言模型提供了医生原本不会想到的指导?这是一个未来的研究方向,陈宗辉表示。
聊天机器人和与之合作的医生的良好表现引发了一个备受关注的问题:AI医生是否即将到来?
“也许这对AI来说是一个加分点,”陈宗辉说。但他补充道,这并不意味着用聊天机器人代替医生。“这并不意味着患者应该跳过医生直接找聊天机器人。不要这样做,”他说。“有很多好的信息,但也有很多坏的信息。我们需要培养的能力是辨别什么是可信的,什么是不可信的。这一点现在比以往任何时候都重要。”
(全文结束)


