利用大型语言模型(LLMs)在临床诊断中提供了一种有前途的方式,可以改善医患互动。病史采集是医学诊断的核心部分。然而,随着患者数量的增加、医疗资源有限、简短的咨询时间和远程医疗的迅速普及(受COVID-19大流行的推动),这些因素给传统实践带来了压力。这些问题威胁到诊断的准确性,突显了提高临床对话质量的需求。
生成式AI,特别是大型语言模型(LLMs),可以通过详细的交互式对话解决这一问题。它们有潜力收集全面的病史,帮助进行鉴别诊断,并支持医生在远程医疗和急诊环境中工作。然而,LLMs的实际应用准备情况尚未充分测试。目前的评估主要集中在选择题形式的医学问题上,而对LLMs在与患者互动中的表现探索有限。这一差距凸显了评估其在增强虚拟医疗访问、分诊和医学教育方面有效性的必要性。
来自哈佛医学院、斯坦福大学、MedStar乔治敦大学、西北大学和其他机构的研究人员开发了用于医学测试的对话推理评估框架(CRAFT-MD)。该框架通过模拟医患对话评估临床LLMs,如GPT-4和GPT-3.5,重点关注诊断准确性、病史采集和推理能力。它解决了当前模型的局限性,并为更有效和合乎伦理的LLM评估提供了建议。
研究使用医学案例摘要评估了基于文本和多模态的LLMs。基于文本的模型使用来自MedQA-USMLE数据集的2000个问题进行了评估,涵盖了多个医学专科和额外的皮肤科问题。NEJM图像挑战数据集(由图像-案例对组成)用于多模态评估。MELD分析用于通过比较模型响应与测试问题来识别潜在的数据集污染。分级AI和医学专家评估了与模拟患者AI代理互动的临床LLMs及其诊断准确性。不同的对话格式和选择题用于评估模型性能。
CRAFT-MD框架评估了临床LLMs在模拟医患互动中的对话推理能力。它包括四个组成部分:临床LLM、患者AI代理、分级AI代理和医学专家。该框架测试了LLM提出相关问题、整合信息并提供准确诊断的能力。开发了一种对话总结技术,将多轮对话转换为简洁的总结,提高了模型的准确性。研究表明,从选择题过渡到自由回答问题时,准确性显著下降,对话互动通常不如基于案例的任务表现,突显了开放临床推理的挑战。
尽管在医学任务中表现出色,但临床LLMs通常使用静态评估,如选择题,未能捕捉到真实世界临床互动的复杂性。使用CRAFT-MD框架的评估发现,LLMs在对话场景中的表现明显低于结构化考试。我们建议转向更现实的测试,如动态医患对话、开放式问题和全面的病史采集,以更好地反映临床实践。此外,集成多模态数据、持续评估和改进提示策略对于将LLMs发展为可靠的诊断工具至关重要,以确保可扩展性并减少不同人群中的偏见。
(全文结束)


