人工智能“医生”在医疗对话中的表现如何？ - AI与医疗健康

人工智能“医生”在医疗对话中的表现如何？How Good Are AI ‘Clinicians’ at Medical Conversations?

环球医讯 / AI与医疗健康来源：hms.harvard.edu美国 - 英语2025-01-02 18:06:00 - 阅读时长5分钟 - 2051字

哈佛医学院和斯坦福大学的研究人员设计了一种更真实的测试方法，评估人工智能模型在模拟真实医患互动中的临床沟通能力，发现这些模型虽然在标准化医学考试中表现出色，但在处理自然对话和复杂信息时表现不佳，提出了优化AI工具性能的建议。

研究人员设计了一种新的方法，更可靠地评估人工智能模型在现实场景中做出临床决策的能力，这些场景紧密模仿现实生活中的互动。分析表明，大型语言模型在回答考试形式的问题时表现出色，但在从对话笔记中进行诊断时却遇到困难。研究人员提出了一套指南，以优化AI工具的性能，并在将其集成到临床之前使其与实际操作相一致。

像ChatGPT这样的人工智能工具因其承诺通过分流患者、记录病史甚至提供初步诊断来减轻医生的工作量而备受关注。这些被称为大型语言模型的工具已经被患者用于理解他们的症状和医疗检查结果。然而，尽管这些AI模型在标准化的医学测试中表现出色，它们在更接近现实世界的情况下的表现如何呢？

根据哈佛医学院和斯坦福大学研究人员领导的一项新研究的结果，情况并不太好。该研究于1月2日发表在《自然医学》上，研究人员设计了一个评估框架——或测试——称为CRAFT-MD（医学对话推理评估框架），并在四个大型语言模型上部署它，以观察它们在与患者实际互动中模拟的环境中表现如何。

所有四个大型语言模型在医学考试形式的问题上表现出色，但在参与更接近现实世界互动的对话时，其表现恶化。这一差距凸显了两个需求：首先，创建更真实的评估，以更好地衡量临床AI模型在现实世界中的适用性；其次，在这些工具被部署到诊所之前，提高它们基于更真实的互动进行诊断的能力。

“我们的工作揭示了一个显著的悖论——虽然这些AI模型在医学考试中表现出色，但它们在医生访问的基本来回对话中却挣扎，”研究高级作者、哈佛医学院布拉瓦尼克研究所生物医学信息学助理教授Pranav Rajpurkar说。“医疗对话的动态性质——需要在合适的时间问合适的问题，拼凑分散的信息，并通过症状进行推理——提出了远超回答选择题的独特挑战。当我们从标准化测试转向这些自然对话时，即使是最先进的AI模型也显示出显著的诊断准确性下降。”

目前，开发人员通过让AI模型回答多项选择题来测试其性能，这些题目通常来自医学毕业生的全国考试或住院医师认证考试。研究共同第一作者、Rajpurkar实验室博士生Shreya Johri表示：“这种方法假设所有相关信息都清晰简洁地呈现出来，通常带有简化诊断过程的医学术语或流行语，但在现实世界中，这个过程要混乱得多。我们需要一个更能反映现实的测试框架，因此也能更好地预测模型的表现。”

CRAFT-MD旨在成为这样一个更真实的评估工具。为了模拟现实世界的互动，CRAFT-MD评估大型语言模型收集关于症状、药物和家族病史信息的能力，然后进行诊断。一个AI代理充当患者，以对话式的自然风格回答问题。另一个AI代理评估大型语言模型最终诊断的准确性。人类专家随后评估每次互动的结果，包括收集相关患者信息的能力、面对分散信息时的诊断准确性以及对提示的遵守情况。

研究人员使用CRAFT-MD测试了四种AI模型——包括专有、商业和开源模型——在2000个临床案例中的表现，这些案例涉及初级护理中常见的疾病和12个医学专科。所有AI模型都表现出局限性，尤其是在进行临床对话和根据患者提供的信息进行推理方面的能力不足。这反过来又影响了它们记录病史和做出适当诊断的能力。例如，这些模型常常难以提出合适的问题来收集相关的病史，错过了病史记录中的关键信息，并且难以整合分散的信息。当这些模型面对开放式信息而不是多项选择题时，其准确性下降。在来回对话中——正如大多数现实世界的对话一样——这些模型的表现比在总结对话中更差。

基于这些发现，研究团队为设计AI模型的开发人员和负责评估和批准这些工具的监管机构提出了一些建议。这些建议包括：

使用更准确反映非结构化医患互动的对话式、开放式问题来设计、训练和测试AI工具；
评估模型提出正确问题和提取最重要信息的能力；
设计能够跟踪多个对话并整合其中信息的模型；
设计能够整合文本（对话笔记）和非文本数据（图像、心电图）的AI模型；
设计更复杂的AI代理，能够解释非语言线索，如面部表情、语气和肢体语言。

此外，研究人员建议评估应包括AI代理和人类专家，因为仅依赖人类专家既费力又昂贵。例如，CRAFT-MD在48至72小时内处理了10,000次对话，加上15至16小时的专家评估。相比之下，基于人类的方法将需要广泛的招募，估计需要500小时用于患者模拟（每段对话近三分钟）和约650小时用于专家评估（每段对话近四分钟）。使用AI评估员作为第一线还有额外的优势，可以消除将未经验证的AI工具暴露给真实患者的风险。

研究人员表示，他们预计CRAFT-MD本身也将定期更新和优化，以整合改进的患者-AI模型。

“作为一名医生科学家，我对能够有效和合乎伦理地增强临床实践的AI模型感兴趣，”研究共同高级作者、斯坦福大学生物医学数据科学和皮肤病学助理教授Roxana Daneshjou说。“CRAFT-MD创建了一个更接近现实世界互动的框架，从而有助于推动该领域在测试AI模型在医疗保健中的性能方面向前发展。”

(全文结束)