Hossein Estiri,临床增强智能(CLAI)研究小组主任,马萨诸塞州总医院医学副教授。
美国研究人员已开发出一种代理式AI,可通过筛选常规临床文件来筛查处于认知障碍早期阶段的人群。
马萨诸塞州总医院布里格姆(Mass General Brigham)的团队表示,该AI完全自主,在部署后无需人工干预,并在真实世界验证测试中显示出98%的特异性。他们已在《自然》旗下《npj Digital Medicine》期刊上发表了两种用于该AI方法的大语言模型(LLM)工作流程。
论文中指出,LLM"通过系统处理和解读贯穿医疗文档的复杂叙事线索,有可能彻底改变临床工作流程"。
研究人员还发布了一款名为Pythia的开源工具,称其可使任何医疗保健系统或研究机构能够开发和部署自主AI筛查应用程序,用于自身目的。
"我们没有构建单一的AI模型——我们构建了一个数字临床团队,"通讯作者、马萨诸塞州总医院临床增强智能(CLAI)研究小组主任兼医学副教授Hossein Estiri表示,"该AI系统包含五个专门的代理,它们相互批评并完善推理,就像临床医生在病例会议中所做的那样。"
希望AI代理能够补充并改进当前用于检测认知衰退的工具,如简易精神状态检查(Mini-Mental State Examination)和蒙特利尔认知评估(Montreal Cognitive Assessment),这些工具管理起来繁琐耗时,且可能产生多变的结果。
与此同时,随着现在市场上出现了可以帮助减缓阿尔茨海默病等疾病认知衰退的药物,早期检测变得尤为紧迫,以便在药物最有效的时候使用它们。
"当许多患者收到正式诊断时,最佳治疗窗口可能已经关闭,"马萨诸塞州总医院布里格姆神经学部门医疗保健智能中心(Center for Healthcare Intelligence)的联合首席研究作者Lidia Moura表示。
"临床笔记中包含着忙碌的临床医生无法系统发现的认知衰退'低语',而该系统可以大规模地聆听这些'低语'。"
该研究分析了200名匿名患者在常规医疗访问期间产生的3,300多份临床笔记,寻找认知衰退的迹象。AI代理的结论由人类进行审查,当存在分歧时,由独立专家进行重新评估。
该系统在平衡测试中达到了91%的敏感性——即正确发现病例的能力——但在真实世界条件下,这一数字下降到62%。另一方面,特异性——排除阴性病例的能力——几乎是完美的。
在AI和人类评审员存在分歧的情况下,专家有58%的时间验证了AI的推理,表明它正在做出合理的临床判断,而这些判断被最初的人类团队忽略了。
"我们正在公开发布AI遇到困难的确切领域,"Estiri表示,"如果我们希望临床AI获得信任,该领域需要停止隐藏这些校准挑战。"
【全文结束】


