AI模型提升医疗记录中认知衰退检测,研究发现AI models boost detection of cognitive decline in medical records, study finds

环球医讯 / AI与医疗健康来源:www.news-medical.net美国 - 英语2024-10-16 17:00:00 - 阅读时长4分钟 - 1935字
结合大型语言模型与传统方法可以提高早期认知衰退迹象的识别准确性,为早期诊断带来新的希望
AI模型医疗记录认知衰退检测早期诊断大型语言模型传统方法电子健康记录阿尔茨海默病
AI模型提升医疗记录中认知衰退检测,研究发现

结合大型语言模型与传统方法可以提高早期认知衰退迹象的识别准确性,为早期诊断带来新的希望。

近期一项发表在《eBioMedicine》上的研究评估了大型语言模型(LLMs)在电子健康记录(EHRs)中识别认知衰退迹象的有效性。

背景

阿尔茨海默病及其相关痴呆症影响数百万人,降低了他们的生活质量,并带来了经济和情感负担。早期识别认知衰退可能有助于更有效的治疗和更高水平的护理。大型语言模型在多个医疗保健领域和临床语言处理任务中表现出令人鼓舞的结果,包括信息提取、实体识别和问答。然而,它们在使用电子健康信息检测特定临床疾病(如认知衰退)方面的有效性仍存在疑问。很少有研究在符合《健康保险可移植性和责任法案》(HIPAA)的云计算系统上评估EHR数据,也很少有研究将大型语言模型与传统的基于人工智能的方法(如机器学习和深度学习)进行比较。这类研究可能会影响模型增强技术的发展。

研究概况

在这项研究中,研究人员调查了使用大型语言模型和EHR数据早期检测渐进性认知衰退的情况,并将大型语言模型与传统模型进行了性能比较。研究团队分析了波士顿麻省总医院布里格姆的专有和开源LLMs,研究了2019年被诊断为轻度认知障碍(MCI)的50岁及以上个体在诊断前四年的医疗记录。

国际疾病分类第十版临床修改(ICD-10-CM)确定了MCI。研究团队排除了短暂、可逆和恢复的认知衰退病例。符合HIPAA法案的云计算系统支持GPT-4(专有)和Llama 2(开源)的提示。提示增强方法包括错误分析指令、检索增强生成(RAG)和硬提示,这些方法促进了LLM的发展。硬提示选择包括随机、定向和K均值聚类辅助选择。

基线研究模型包括XGBoost和基于注意力机制的深度神经网络(DNN)。DNN框架包括双向长短期记忆(LSTM)网络。根据性能,研究人员选择了最佳的LLM方法。他们构建了一个基于多数投票的三模型集成,并使用混淆矩阵评分来评估模型性能。研究团队使用直观的手动模板工程方法微调任务描述,额外的任务指导增强了LLM的推理能力。

结果

研究数据集包括1,969名个体的4,949个临床笔记部分,其中53%为女性,平均年龄为76岁。通过认知功能关键词过滤笔记以开发研究模型。测试数据集未经过关键词过滤,包括1,161名个体的1,996个临床笔记部分,其中53%为女性,平均年龄为77岁。

研究团队发现GPT-4比Llama 2更准确和高效。然而,GPT-4无法超越使用领域特定和本地EHR数据训练的传统模型。使用通用领域的大型语言模型、机器学习或深度学习训练的模型的错误配置非常不同;将它们合并成一个集成模型显著提高了性能。集成研究模型达到了90%的精确度、94%的召回率和92%的F1分数,在所有性能指标上都优于所有单独的研究模型,并且结果具有统计学意义。

值得注意的是,与最准确的单个模型相比,集成研究模型将精确度从不到80%提高到超过90%。错误分析显示,至少有一个模型错误预测了63个样本。然而,在所有模型中,只有两例共同错误(3.20%),这表明模型之间的错误配置存在多样性。动态RAG方法结合五次提示和基于错误的指令产生了最佳结果。

GPT-4突出了阿尔茨海默病治疗选项,如安理申(Aricept)和多奈哌齐。它还更好地检测了轻度神经认知障碍、重度神经认知障碍和血管性痴呆等诊断。GPT-4还解决了认知问题的情感和心理后果,如焦虑,这些通常被其他模型忽视。与传统模型不同,GPT-4可以处理模糊短语,分析复杂信息,而不会混淆否定和上下文因素。然而,GPT-4偶尔会过度解读或过于谨慎,忽略临床事件的根本原因。GPT-4和基于注意力机制的DNN有时会误解临床检查结果。

结论

根据研究结果,使用通用领域训练的大型语言模型和在电子健康记录上训练的传统AI模型有不同的错误配置。将三个模型组合成集成研究模型提高了诊断性能。研究结果表明,使用通用领域训练的LLMs需要进一步发展以改善临床决策。未来的研究应将LLMs与更本地化的模型结合起来,利用医学信息和领域专业知识来提高特定任务的模型性能,并尝试不同的提示和微调策略。

参考文献:

Xinsong Du et al., (2024) Enhancing early detection of cognitive decline in the elderly: a comparative study utilizing large language models in clinical notes, eBioMedicine 2024;109: 105401 Published Online xxx doi :


(全文结束)

大健康
大健康