人工智能工具如ChatGPT因其有望通过分诊患者、采集病史甚至提供初步诊断来减轻临床医生的工作负担而备受关注。这些被称为大型语言模型的工具已经被患者用来解释他们的症状和医学检查结果。
然而,尽管这些AI模型在标准化医学考试中表现出色,但它们在更接近现实世界的情境中表现如何呢?根据哈佛医学院和斯坦福大学研究人员的一项新研究,结果并不理想。该研究于1月2日发表在《自然医学》(Nature Medicine)上。
为了进行这项分析,研究人员设计了一个名为CRAFT-MD(医学测试中的对话推理评估框架)的评估框架,并将其应用于四个大型语言模型,以观察它们在模拟实际医患互动中的表现。所有四个大型语言模型在医学考试风格的问题上表现出色,但在参与更接近现实世界的对话时,其表现显著下降。
这一差距凸显了两个需求:首先,创建更现实的评估方法,以更好地衡量临床AI模型在现实世界中的适用性;其次,在这些工具被部署到诊所之前,提高它们基于更真实的互动进行诊断的能力。像CRAFT-MD这样的评估工具不仅可以更准确地评估AI模型在现实世界中的适用性,还可以优化其在诊所中的表现。
“我们的研究表明了一个显著的悖论——尽管这些AI模型在医学考试中表现出色,但在医生就诊的基本对话中却显得力不从心,”该研究的资深作者、哈佛医学院生物医学信息学助理教授Pranav Rajpurkar说。“医疗对话的动态性质——需要在适当的时间提出正确的问题,整理分散的信息,并通过症状进行推理——提出了远超选择题的独特挑战。当从标准化测试转向这些自然对话时,即使是最先进的AI模型也显示出显著的诊断准确性下降。”
更好的测试以评估AI的真实世界表现
目前,开发者通过让AI模型回答多项选择题来测试其性能,这些问题通常来自即将毕业的医学生或住院医师认证考试。该研究的共同第一作者、哈佛医学院Rajpurkar实验室的博士生Shreya Johri表示:“这种方法假设所有相关信息都清晰简洁地呈现出来,通常带有简化诊断过程的医学术语或关键词,但在现实中,这个过程要混乱得多。”
“我们需要一个更能反映现实的测试框架,因此可以更好地预测模型的表现。”CRAFT-MD旨在成为这样一个更现实的衡量标准。为了模拟现实世界的互动,CRAFT-MD评估大型语言模型收集症状、药物和家族病史信息并作出诊断的能力。一个AI代理被用来扮演患者,以对话的方式回答问题。另一个AI代理则评估大型语言模型最终诊断的准确性。人类专家随后评估每次互动的结果,包括收集相关患者信息的能力、面对分散信息时的诊断准确性以及对提示的遵循情况。
研究人员使用CRAFT-MD测试了四个AI模型——既有专有或商业模型,也有开源模型——在2000个临床案例中的表现,这些案例涵盖了常见于初级保健的条件和12个医学专科。所有AI模型都显示出局限性,特别是在进行临床对话和基于患者提供的信息进行推理方面的能力不足。这反过来又影响了它们采集病史和做出适当诊断的能力。例如,这些模型常常难以提出正确的问题来收集相关的病史,错过了关键信息,并且难以整合分散的信息。当面对开放性信息而非多项选择题时,这些模型的准确性下降。在双向交流中,这些模型的表现也比在总结性对话中更差,而大多数现实世界的对话都是双向的。
优化AI真实世界表现的建议
基于这些发现,研究团队为设计AI模型的开发者和负责评估和批准这些工具的监管机构提出了一系列建议:
- 使用更接近非结构化医患互动的对话式、开放式问题来设计、训练和测试AI工具;
- 评估模型提出正确问题和提取最关键信息的能力;
- 设计能够跟踪多个对话并整合其中信息的模型;
- 设计能够整合文本(对话记录)和非文本数据(图像、心电图等)的AI模型;
- 设计更复杂的AI代理,能够解释非语言线索,如面部表情、语调和肢体语言。
此外,研究人员建议评估应包括AI代理和人类专家,因为仅依赖人类专家既费力又昂贵。例如,CRAFT-MD在48至72小时内处理了10,000次对话,加上15至16小时的人类专家评估。相比之下,基于人类的方法需要大量的招募工作,并估计需要500小时进行患者模拟(每段对话近三分钟)和约650小时进行专家评估(每段对话近四分钟)。使用AI评估者作为第一线还有额外的优势,即消除了让真实患者暴露于未经验证的AI工具的风险。研究人员表示,他们预计CRAFT-MD本身也将定期更新和优化,以整合改进的患者-AI模型。
“作为一名医师科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣,”该研究的共同资深作者、斯坦福大学生物医学数据科学和皮肤科助理教授Roxana Daneshjou说。“CRAFT-MD创建了一个更接近现实世界互动的框架,从而有助于推动在医疗保健中测试AI模型性能领域的进展。”
(全文结束)


