AI能否比医生更准确地检测认知衰退?新研究揭示惊人准确性Can AI detect cognitive decline better than a doctor? New study reveals surprising accuracy | Live Science

环球医讯 / AI与医疗健康来源:www.livescience.com美国 - 英语2026-01-29 06:17:24 - 阅读时长5分钟 - 2107字
这项发表在《npj Digital Medicine》期刊上的研究展示了一种创新AI系统,该系统通过分析医生的临床笔记识别认知衰退早期迹象。研究采用"智能体"方法构建由五个协同工作的AI程序组成的系统,使用麻省总医院三年临床数据进行训练。测试显示系统与医生判断一致性达91%,在真实场景测试中敏感度为62%,且44%情况下临床专家复核后支持AI判断。该技术旨在辅助而非替代医生,特别适用于专科医生短缺环境,能帮助识别需要紧急随访的认知问题患者,通过优先关注病历中明确描述的记忆障碍或思维变化等关键线索,为早期干预提供支持,有望提升医疗系统对认知健康问题的筛查效率。
AI认知衰退健康医生笔记筛查辅助准确性智能体临床判断医疗记录早期信号痴呆症临床工作流程
AI能否比医生更准确地检测认知衰退?新研究揭示惊人准确性

认知衰退的最早迹象通常并非出现在正式诊断中,而是埋藏在医疗提供者笔记中的细微线索里。

发表在1月7日《npj Digital Medicine》期刊上的一项新研究表明,人工智能(AI)可以通过扫描医生笔记中的关注模式,帮助识别这些早期信号——例如记忆和思维问题或行为变化。这些信号可能包括患者反复提及的认知变化或困惑,或陪同就诊的家庭成员表达的担忧。

该系统并非直接诊断认知衰退或痴呆症,而是旨在标记那些病历显示可能需要更密切关注的患者。

"目标不是取代临床判断,而是作为筛查辅助工具,"该研究的合著者、麻省总医院神经病学副教授Lidia Moura博士告诉Live Science。她说,通过突出这些患者,该系统可以帮助临床医生决定跟进哪些人,特别是在专科医生短缺的环境中。

"这种筛查是否真正帮助患者取决于其使用方式,"未参与该研究的加州大学旧金山分校健康信息学专家Julia Adler-Milstein表示。"如果标记准确,发送给护理团队中合适的人,并且具有可操作性——意味着能引导明确的下一步行动——那么是的,它们可以轻松整合到临床工作流程中,"她通过电子邮件告诉Live Science。

不只是一个,而是一组AI智能体

为了构建这一新AI系统,研究人员采用了他们称之为"智能体"(agentic)的方法。这一术语指的是一组协调工作的AI程序——在本案例中是五个——每个都有特定角色并互相审查工作。这些协作的智能体共同迭代改进系统对临床笔记的解释,无需人工输入。

研究人员基于Meta的Llama 3.1构建了该系统,并为其提供了三年的医生笔记进行学习,包括门诊记录、进展笔记和出院摘要。这些资料来自医院注册表,且已经过临床医生审查,他们已注明给定患者的病历中是否存在认知担忧。

研究团队首先向AI展示了一组平衡的患者笔记,一半有记录的认知担忧,一半没有,并让AI在尝试匹配临床医生如何标记这些记录时从错误中学习。到这一过程结束时,系统与临床医生的判断约91%的时间保持一致。

最终确定的系统随后在它之前未见过的独立数据子集上进行了测试,但这些数据是从相同的三年数据集中提取的。第二个数据集旨在反映真实世界的护理情况,因此只有约三分之一的记录被临床医生标记为显示认知担忧。

在该测试中,系统的敏感度降至约62%,意味着它漏掉了近十分之四被临床医生标记为认知衰退迹象阳性的病例。

"乍一看,准确性的下降看起来像是失败——直到研究人员重新检查了AI和人类审查者分类不同的医疗记录,"该研究的合著者、麻省总医院神经病学副教授Hossein Estiri说。

临床专家通过重新阅读医疗记录来审查这些案例,并且在不知道分类是来自临床医生还是AI的情况下进行。在44%的案例中,这些审查者最终支持系统的评估,而非原始医生对病历的审查。

"这是最令人惊讶的发现之一,"Moura说。

Estiri解释说,在许多这些案例中,AI比医生更保守地应用临床定义,当笔记没有直接描述记忆问题、困惑或患者思维的其他变化时,拒绝标记担忧——即使认知衰退的诊断在记录的其他地方列出。本质上,AI被训练优先关注潜在认知担忧的提及,而医生在当时可能并不总是将其标记为重要。

Moura说,这些结果凸显了医生手动病历审查的局限性。"当信号明显时,每个人都能看到它们,"她说。"当它们微妙时,那就是人类和机器可能产生分歧的地方。"

未参与该研究的RMIT大学AI和健康技术研究员Karin Verspoor表示,该系统是在经过精心策划、临床医生审查的医生笔记集上评估的。但由于数据来自单一医院网络,她警告说,其准确性可能无法转化为文档实践不同的环境。

她说,该系统的视野受其阅读笔记质量的限制,并且只有通过在不同临床环境中优化系统才能解决这一约束。

Estiri解释说,目前,该系统旨在在常规医生就诊的后台安静运行,提出潜在担忧并解释其如何得出这些结论。话虽如此,它尚未在临床实践中使用。

"想法不是让医生坐在那里使用AI工具,"他说,"而是系统作为临床记录本身的一部分提供洞察——我们看到什么,以及为什么。"

文献来源

Tian, J., Fard, P., Cagan, C. et al. 使用大型语言模型进行临床认知担忧检测的自主智能体工作流程。npj Digit. Med. 9, 51 (2026)。

Anirban Mukhopadhyay是一位独立科学记者。他拥有遗传学博士学位和计算生物学与药物设计硕士学位。他定期为《印度教徒报》撰稿,并曾为《The Wire Science》撰稿,在那里他以通俗易懂的语言向公众传达复杂的生物医学研究。除了科学写作外,他还喜欢创作和阅读将神话、记忆和忧郁融入探索悲伤、身份和自我发现的安静魔法的超现实故事。闲暇时,他喜欢与他的狗一起长时间散步,并在喜马拉雅山脉骑摩托车。

【全文结束】