关键要点:
- 该系统采用双路径大型语言模型工作流程识别临床笔记中的认知问题。
- 在AI与人类专家意见分歧的案例中,临床医生验证了近半数模型判断的正确性。
一项基于人工智能的自主系统可能可行用于确定需要早期干预以应对阿尔茨海默病相关认知问题的患者,相关数据已发表在《NPJ数字医学》期刊上。
“本研究旨在解决全球人口快速老龄化与医疗系统早期认知变化检测能力有限之间的日益扩大的差距,”麻省总医院布里格姆(Mass General Brigham)神经病学系人口健康与医疗智能中心主任、研究合著者利迪亚·穆拉(Lidia Moura)博士向Healio表示,“当前的认知筛查主要依赖耗时的评估和医疗提供者资源——而这些资源正日益稀缺。因此,大量早期认知变化患者从未得到及时评估,直到症状显著恶化。”
随着针对认知障碍早期阶段的新型疾病修正疗法(DMTs)问世,这一差距的重要性日益凸显。穆拉指出,尽管新疗法增加了对早期识别的需求,但临床医生数量却无法满足大规模正式认知测试的需求。
穆拉及其同事致力于通过开发并验证一种基于AI的筛查工具来解决这种“供需失衡”,该工具旨在协助医疗系统识别可能受益于深入认知评估的患者。
“该系统并非增加新任务或就诊环节,而是从日常临床文档中捕捉嵌入的认知问题早期信号——这些信号原本已被临床医生和护理人员察觉,却无法在大规模人群中系统追踪,”穆拉解释道。
研究人员使用2016年1月至2018年12月期间麻省总医院布里格姆研究患者数据注册库中200名患者的3,338份临床笔记,创建了两个用于识别认知问题的大型语言模型(LLM)工作流程。第一个是经三位专家优化的流程,涉及三个LLM(LLaMA 3.1 8B、LLaMA 3.2 3B、Med42 v2 8B);第二个是协调五个专业代理进行提示优化的自主智能体工作流程。
随后,研究团队基于Llama 3.1创建了两个数据集:第一个为优化数据集(100名患者的2,228份笔记;平均年龄77.9岁;60%为女性),通过过采样阳性案例实现认知问题患者与非患者比例均衡;第二个为随机抽样验证数据集(100名患者的1,110份笔记;平均年龄76.1岁;59%为女性),代表真实世界患病率。
数据集同时接受AI与人类专家评审,分歧案例由独立专家复核。结果显示,自主智能体工作流程在验证性能上与专家驱动流程相当(0.74 vs. 0.81),但在优化结果上表现更优(0.93 vs. 0.87)。
尽管AI系统在均衡优化测试中灵敏度达91%,但在真实条件下运行时降至62%,特异性仍保持98%的高水平。在评审分歧案例中,独立专家验证了58%的AI推理正确性,表明该模型做出了人类评审遗漏的恰当临床判断。
此外,专家再裁决显示44%的表面假阴性案例反映临床合理推理,证明智能体系统能在保持可解释性的同时达到人类专家级性能。统计比较还确认两组数据集在年龄、性别、种族及民族构成上无显著差异,验证了人口统计学平衡性。
穆拉强调,常规临床接触可转化为早期认知信号检测契机,从而支持及时转诊并契合新兴治疗窗口。“临床上最关键的发现是:利用现有临床文档即可高效、规模化地识别认知问题,且无需增加医生时间或负担,”她向Healio表示,“高灵敏度与高阴性预测值正是此类系统具备临床实用性的核心。”
更多信息:
利迪亚·穆拉(Lidia Moura)博士联系方式:neurology@healio.com
来源与披露
来源:
Estiri H 等. NPJ Digit Med. 2026;doi:10.1038/s41746-025-02324-4.
参考文献:
自主AI智能体开发用于检测认知衰退早期迹象。发布于2025年1月15日。访问于2025年1月15日。
披露: 作者声明无相关财务披露。本研究由美国国立卫生研究院(NIH)、国家衰老研究所和国家过敏与传染病研究所资助。
【全文结束】


