波士顿——根据哈佛医学院和斯坦福大学的新研究,尽管人工智能在医疗领域显示出巨大的潜力,例如读取X光片和建议治疗方案,但在实际与患者交谈并进行准确诊断方面,AI仍然存在重大局限性。
这项发表在《自然医学》上的研究介绍了一种名为CRAFT-MD(医学对话推理评估框架)的创新测试框架,以评估大型语言模型(LLMs)在模拟医患互动中的表现。随着越来越多的患者转向像ChatGPT这样的AI工具来解释症状和医疗检测结果,了解这些系统的实际能力变得至关重要。
“我们的研究表明了一个惊人的悖论——虽然这些AI模型在医学考试中表现出色,但它们在医生就诊的基本问答过程中却显得力不从心,”研究的主要作者、哈佛医学院生物医学信息学助理教授普拉纳夫·拉杰普卡尔解释说。“医疗对话的动态性质——需要在适当的时间提出正确的问题,整理分散的信息,并对症状进行推理——提出了独特的挑战,远远超出了回答选择题的能力。”
由拉杰普卡尔和斯坦福大学的罗克萨娜·达内什乔领导的研究团队评估了四个突出的AI模型,涵盖了2000个涉及12个专业的医疗案例。目前的评估方法通常依赖于多选题形式的医学考试题目,这些题目以结构化格式呈现信息。然而,研究的共同第一作者舒雷亚·乔赫里指出,“在现实世界中,这个过程要混乱得多。”
通过CRAFT-MD进行的测试揭示了传统评估和更现实场景之间的显著性能差异。在四选一的选择题中,GPT-4的诊断准确率从阅读准备好的病例摘要时的82%下降到通过对话收集信息时的63%。这种下降在没有选择题选项的开放式场景中更加明显,其中准确性在书面摘要中降至49%,在模拟患者访谈中降至26%。
AI模型在整合多次对话交换的信息方面表现出特别的困难。常见的问题包括在病史采集过程中遗漏关键细节、未能提出适当的后续问题以及难以整合各种类型的信息,例如将医学图像的视觉数据与患者报告的症状结合起来。
CRAFT-MD的效率还突显了该框架的另一个优势:它可以在48至72小时内处理10,000次对话,再加上15至16小时的专家评估。传统的基于人类的评估则需要广泛的招募,大约500小时用于患者模拟和650小时用于专家评估。
“作为一名医生科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣,”斯坦福大学生物医学数据科学和皮肤病学助理教授达内什乔说。“CRAFT-MD创建了一个更接近现实互动的框架,因此有助于推动AI模型在医疗保健领域的性能测试。”
基于这些发现,研究人员提供了全面的AI开发和监管建议。这些建议包括创建能够处理非结构化对话的模型、更好地整合各种类型的数据(文本、图像和临床测量),以及能够解释非言语交流线索的能力。他们还强调了将基于AI的评估与人类专家评估相结合的重要性,以确保彻底测试,同时避免将未经验证的系统过早暴露给真实患者。
该研究表明,尽管AI在医疗领域显示出了前景,但当前系统仍需显著进步,才能可靠地参与复杂而动态的真实医患互动。目前,这些工具最好作为人类医疗专业知识的补充,而不是替代品。
(全文结束)


