2025年3月6日
Valentin Liévin, 软件工程师,和 Anil Palepu, 研究科学家
我们通过拓展AMIE的能力边界,使其超越诊断范畴,延伸至疾病治疗与长期管理领域。在随机对照研究中,AMIE在多轮诊疗场景中展现出与执业医师相当甚至更优的疾病管理推理能力。通过与专业患者演员的模拟互动,AMIE能够精准规划检查方案、制定治疗计划和开具处方,并能恰当运用权威临床指南。
临床推理能力——涵盖患者诊疗全过程的决策总和——是医疗保健的基石。高质量的临床推理不仅需要准确诊断,更要求对疾病进展、治疗反应、安全用药和共享决策中的指南应用进行复杂判断。即便确诊后,最优管理方案通常需要持续监测患者轨迹,制定个性化治疗计划,并根据患者需求、偏好和系统限制进行前瞻性调整。尽管大语言模型(LLMs)在诊断对话中展现出潜力,但其在纵向疾病管理中的能力尚未得到充分探索。
在《面向疾病管理的会话式AI》研究中,我们通过整合优化的LLM智能体能力,将Articulate Medical Intelligence Explorer(AMIE)的诊断推理能力扩展至疾病管理领域。这种增强版AMIE基于Gemini模型家族的核心优势,如最先进的长文境推理和最低幻觉率,整合了针对疾病纵向发展、治疗反应和用药安全的推理能力。这使AMIE能够超越诊断阶段,支持患者与医生共同应对后续诊疗的复杂决策。
疾病管理的挑战
临床护理面临的独特挑战延伸至初始诊断后的全过程。疾病管理需综合考量治疗副作用、患者依从性、生活方式调整,以及不断更新的医学研究和临床指南。直到现在,管理推理能力仍是AI系统未充分探索的领域。
双智能体架构增强推理能力
我们采用创新的双LLM智能体交互模式应对这一挑战,这种方法与人类医生处理管理问题的方式相似。
对话智能体面向用户,能够基于患者当前状态快速响应。该智能体负责对话互动,收集病情信息、解答患者疑虑并建立信任关系。通过自然语言处理和共情交流技术,对话智能体确保流畅的交互体验。
管理推理智能体(Mx Agent)则持续分析临床指南和患者数据,优化疾病管理方案。借助Gemini的长文境处理能力,该智能体可同时整合多轮患者对话和数百页临床指南,生成结构化的检查、治疗和随访计划,综合最新医学证据、既往病史和患者偏好。
基于临床指南的管理决策
为确保可靠性和安全性,AMIE的管理推理通过扩展测试时计算能力,结合结构性约束,在权威医学知识基础上生成决策。其依赖Gemini的长文境理解能力,确保输出符合最新临床指南和药品目录。
该系统从包含英国国家健康与护理卓越研究所(NICE)指南和BMJ最佳实践指南的综合知识库中选取和处理文档。管理智能体利用这些权威资源进行决策,确保推荐方案符合循证医学原则。
结构化的约束机制引导模型遵循指定推理策略,通过迭代生成和合并计划提升质量。这使得AMIE能够创建既循证又个性化的管理方案。
性能评估:多轮OSCE研究
为严格评估AMIE的纵向管理能力,我们开展了随机双盲虚拟客观结构化临床考试(OSCE)研究,模拟文本咨询场景。研究对比了AMIE与20名全科医生在100个多轮案例中的表现。
OSCE研究的多轮设计评估了AMIE的三项核心能力:1)记忆和整合既往交互信息,2)根据病情演变调整方案,3)维持一致且富同理心的沟通。
专科医师从适当性、完整性、指南依从性和患者中心性等维度评估管理方案质量。结果显示AMIE非劣于全科医生,在治疗精确性方面更具优势,特别是在选择适当检查和避免不必要检查方面。
我们还基于管理推理经验关键特征(MXEKF)评估AMIE的行为表现,该评估体系涵盖偏好优先级、共享决策、方案比较、计划调整和预后能力等指标。患者演员和专科医师均给予积极评价。
RxQA:药物推理基准测试
安全用药是疾病管理的核心。为评估AMIE的药物推理能力,我们创建了RxQA基准测试,包含600道多选题,涵盖适应症、禁忌症、剂量、副作用和药物相互作用。所有题目经认证药师验证,确保临床相关性。
测试结果显示AMIE在药物知识和指南理解方面表现优异,远超随机猜测水平。
局限性
尽管结果积极,仍需注意以下限制:模拟OSCE场景简化了真实临床实践,未涉及电子健康记录操作;评估仅使用单一卫生系统指南,未进行本地化调整;模拟间隔较短且为纯文本交互,可能低估真实复杂性;MXEKF评估体系仍需进一步验证。
结论
AMIE的表现标志着会话式AI在疾病管理领域的重要进展。通过整合纵向推理、指南依从和多智能体设计,我们展示了AI在超越诊断后的管理领域的潜力。
尽管还需更多研究验证真实临床影响,我们已与临床合作伙伴启动前瞻性研究。这项工作体现了负责任的AI开发,展示了提升循证医疗可及性的可能性。
致谢
本研究由谷歌研究院和DeepMind团队联合完成,感谢BMJ最佳实践、英国国家健康与护理卓越研究所和英国皇家药学会的支持。
【全文结束】


