聊天机器人可以通过回答简单的问题、进行初步诊断甚至分诊患者来帮助减轻医务人员的工作负担。但它们需要能够从与患者的对话中提取数据。
如果你曾怀疑像ChatGPT这样的聊天机器人是否能帮助你诊断某种疾病,那么你并不是唯一一个有这种想法的人。医疗服务机构和医院也一直在努力利用这些人工智能(AI)工具来减少医务人员的工作量。
虽然这些机器人的准确性相当高,但哈佛医学院和斯坦福大学的研究人员最近在《自然医学》上发表的一项研究表明,这些工具需要更好地理解在诊所发生的“医疗对话”,才能在现实世界的患者面对场景中部署。
在真实场景中评估聊天机器人
为了测试聊天机器人的性能,研究人员首先设计了一个评估框架来比较四个大型语言模型(LLM)的表现,这些模型为聊天机器人提供支持。
该框架被称为CRAFT-MD,其全称是医学测试中的对话推理评估框架,包括专有的、商业的和开源的LLM,用于识别在初级保健中常见的2,000种临床状况,涵盖12个医学专科。
研究人员发现,CRAFT-MD在处理10,000次对话时的表现优于人类评估者,仅需48-72小时,而人类评估者则需要大约500小时。所有四个LLM在回答医学考试风格的问题时表现良好。然而,当它们需要通过对话得出诊断时,表现有所下降。
“医疗对话的动态性质——在适当的时间问正确的问题,拼凑分散的信息,并通过症状进行推理——带来了独特的挑战,远超回答选择题的要求,”哈佛医学院生物医学信息学助理教授Pranav Rajpurkar说。
“当我们从标准化测试转向这些自然对话时,即使是最复杂的AI模型也会显示出显著的诊断准确性下降,”Rajpurkar补充道。
研究人员发现,他们的分析揭示了一些重大差距,需要在聊天机器人可以部署在患者面对场景之前加以解决。一是需要开发更现实的评估系统,以判断AI模型是否可以在现实世界中使用。
另一个是提高这些工具从临床环境中典型的对话中提取临床意义的能力。
如何让AI成为更好的医生
基于他们的研究,研究人员提出了一些建议,供开发AI模型的人以及未来需要测试和批准这些模型的监管机构参考。
这些建议包括在设计、训练和测试AI模型时使用开放式和对话式问题,而不是考试风格的问题,同时验证模型是否有能力提出正确的后续问题,以从对话中获取必要信息。
这些模型还需要改进,以便结合文本数据和非文本数据,如图像和心电图,同时能够纳入非语言线索,如面部表情、肢体语言和语调,就像医生所做的那样。
(全文结束)


