AI医生在医疗对话中的表现如何?How good are AI doctors at medical conversations? | ScienceDaily

环球医讯 / AI与医疗健康来源:www.sciencedaily.com美国 - 英语2026-03-05 13:55:40 - 阅读时长7分钟 - 3450字
哈佛医学院和斯坦福大学研究人员开发了CRAFT-MD评估框架来测试AI在模拟真实医疗对话中的表现。研究发现,尽管大语言模型在标准医学考试中表现优异,但在处理非结构化医患对话时诊断准确性显著下降,主要问题包括难以提出恰当问题、遗漏关键信息以及整合零散信息能力不足。研究团队建议采用开放式对话问题、增强多轮对话处理能力、整合文本与非文本数据等方法优化AI医疗工具,并强调需要更贴近临床实践的评估体系来确保AI在真实医疗环境中的安全性和有效性,为未来AI在医疗领域的应用提供了重要指导方向。
AI医生医疗对话临床沟通能力CRAFT-MD医学对话推理评估现实世界表现诊断准确性病史采集大语言模型医患互动
AI医生在医疗对话中的表现如何?

AI医生在医疗对话中的表现如何?

研究人员设计更真实的测试方法评估AI的临床沟通能力

人工智能工具如ChatGPT被誉为能够通过分诊患者、记录病史甚至提供初步诊断来减轻临床医生的工作负担。

这些被称为大语言模型的工具已经被患者用来理解自己的症状和医学检测结果。

然而,虽然这些AI模型在标准化医学测试中表现出色,但在更接近现实世界的情况下,它们的表现如何呢?

根据哈佛医学院(Harvard Medical School)和斯坦福大学(Stanford University)研究人员领导的一项新研究的发现,表现并不太好。

在这项于1月2日发表在《自然医学》(Nature Medicine)杂志上的分析中,研究人员设计了一种评估框架——或称测试——名为CRAFT-MD(Conversational Reasoning Assessment Framework for Testing in Medicine,医学对话推理评估测试框架),并在四个大语言模型上部署该框架,以观察它们在密切模拟与患者实际互动的环境中的表现。

所有四个大语言模型在医学考试式问题上表现良好,但在进行更接近现实世界互动的对话时,其表现有所下降。

研究人员表示,这一差距凸显了双重需求:首先,创建更真实的评估方法,以更好地衡量临床AI模型在现实世界中使用的适用性;其次,在将这些工具部署到诊所之前,提高它们基于更真实互动进行诊断的能力。

研究团队表示,像CRAFT-MD这样的评估工具不仅可以更准确地评估AI模型在现实世界中的适用性,还可以帮助优化它们在诊所中的表现。

"我们的工作揭示了一个显著的悖论——虽然这些AI模型在医学执照考试中表现出色,但它们却难以应对医生就诊中的基本问答,"哈佛医学院生物医学信息学助理教授、该研究的资深作者Pranav Rajpurkar说。"医疗对话的动态特性——需要在正确的时间提出正确的问题,将零散的信息拼接起来,并通过症状进行推理——提出了远远超出回答选择题的独特挑战。当我们从标准化测试转向这些自然对话时,即使是最高级的AI模型在诊断准确性方面也会显著下降。"

检查AI现实世界表现的更好测试方法

目前,开发人员通过让AI模型回答选择题医学问题来测试其性能,这些问题通常来自毕业医学生的国家考试或作为医学生认证一部分的考试。

"这种方法假设所有相关信息都清晰简洁地呈现,通常带有简化诊断过程的医学术语或流行语,但在现实世界中,这个过程要混乱得多,"哈佛医学院Rajpurkar实验室的博士生、该研究的共同第一作者Shreya Johri说。"我们需要一个更能反映现实的测试框架,因此能更好地预测模型的表现。"

CRAFT-MD就是设计用来作为这样一种更真实的测量工具。

为了模拟现实世界的互动,CRAFT-MD评估大语言模型收集症状、药物和家族史信息并做出诊断的能力。一个AI代理被用来扮演患者,以对话式、自然的风格回答问题。另一个AI代理对大语言模型做出的最终诊断的准确性进行评分。然后,人类专家评估每次互动的结果,包括收集相关患者信息的能力、在面对零散信息时的诊断准确性以及对提示的遵循情况。

研究人员使用CRAFT-MD测试了四个AI模型——包括专有或商业模型和开源模型——在2,000个临床案例中的表现,这些案例涵盖了初级护理和12个医学专业中常见的疾病。

所有AI模型都显示出局限性,特别是在进行临床对话和基于患者提供的信息进行推理方面。这反过来损害了它们获取病史和做出适当诊断的能力。例如,这些模型经常难以提出正确的问题来收集相关的患者病史,在病史采集过程中遗漏关键信息,并且难以整合零散的信息。当面对开放式信息而非选择题答案时,这些模型的准确性下降。这些模型在进行来回交流时(正如大多数现实世界对话那样)表现也比在总结式对话中更差。

优化AI现实世界表现的建议

基于这些发现,该团队为设计AI模型的AI开发人员和负责评估和批准这些工具的监管机构提供了一套建议。

这些建议包括:

  • 在AI工具的设计、训练和测试中使用对话式、开放式问题,更准确地反映非结构化的医患互动
  • 评估模型提出正确问题和提取最关键信息的能力
  • 设计能够跟踪多轮对话并整合其中信息的模型
  • 设计能够整合文本(对话记录)和非文本数据(图像、心电图)的AI模型
  • 设计更复杂的AI代理,能够解释非语言线索,如面部表情、语调和肢体语言

此外,研究人员建议,评估应该同时包括AI代理和人类专家,因为仅依靠人类专家既费力又昂贵。例如,CRAFT-MD超越了人类评估者,能在48至72小时内处理10,000次对话,外加15-16小时的专家评估。相比之下,基于人类的方法将需要广泛的招募,患者模拟预计需要500小时(每次对话近3分钟),专家评估约需要650小时(每次对话近4分钟)。将AI评估者作为第一线还有一个额外优势,即消除了将未经验证的AI工具暴露给真实患者的风险。

研究人员表示,他们预计CRAFT-MD本身也将定期更新和优化,以整合改进的患者-AI模型。

"作为一名医师科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣,"斯坦福大学(Stanford University)生物医学数据科学和皮肤病学助理教授、该研究的共同资深作者Roxana Daneshjou说。"CRAFT-MD创建了一个更贴近现实世界互动的框架,因此在测试医疗保健中的AI模型性能方面有助于推动该领域的发展。"

作者、资金支持、披露

其他作者包括哈佛医学院的Jaehwan Jeong和Hong-Yu Zhou;乔治城大学(Georgetown University)的Benjamin A. Tran;西北大学(Northwestern University)的Daniel I. Schlessinger;加州大学洛杉矶分校(University of California-Los Angeles)的Shannon Wongvibulsin;斯坦福大学的Leandra A. Barnes、Zhuo Ran Cai和David Kim;以及Dana-Farber癌症研究所的Eliezer M. Van Allen。

这项工作得到了哈佛医学院院长创新奖(HMS Dean's Innovation Award)和授予Pranav Rajpurkar的微软加速基础模型研究基金(Microsoft Accelerate Foundation Models Research grant)的支持。SJ还通过IIE Quad奖学金获得了进一步支持。

Daneshjou报告称,在提交的工作之外,她从DWA、辉瑞(Pfizer)、欧莱雅(L'Oreal)和VisualDx获得了个人费用,从MDAlgorithms和Revea获得了股票期权,并且有一项TrueImage专利正在申请中。Schlessinger是FixMySkin Healing Balms的联合创始人,是Appiell Inc.和K-Health的股东,是Appiell Inc.和LuminDx的顾问,并且是艾伯维(Abbvie)和赛诺菲(Sanofi)的研究员。Van Allen担任Enara Bio、Manifold Bio、Monte Rosa、诺华生物医学研究所(Novartis Institute for Biomedical Research)、Serinus Bio的顾问。E.M.V.A向诺华(Novartis)、百时美施贵宝(BMS)、赛诺菲(Sanofi)和NextPoint提供研究支持。Van Allen持有Tango Therapeutics、Genome Medical、Genomic Life、Enara Bio、Manifold Bio、微软(Microsoft)、Monte Rosa、Riva Therapeutics、Serinus Bio和Syapse的股权。Van Allen已就染色质突变和免疫治疗反应以及临床解释方法申请了机构专利;为Foaley & Hoag提供间歇性的专利法律咨询,并在《科学进展》(Science Advances)杂志编辑委员会任职。

【全文结束】