一项关于生成式人工智能(GenAI)在电子病历(EMRs)中应用的范围审查研究,描绘了当前创新的现状,并突出了有前景的应用案例,同时也提出了关于安全性、伦理和整合的紧急问题。该研究由麦克马斯特大学的研究人员进行,并发表在《信息》杂志上,题为《生成式人工智能在电子病历中的应用:范围审查》。
通过对55篇同行评审的研究进行分析,该审查将GenAI的应用分为五个主要主题:数据处理、患者沟通、临床决策、临床预测和总结。数据处理是最常见的用例,24项研究表明GenAI能够从非结构化的临床记录中提取和综合信息,包括识别癌症症状和检测HIV患者等任务。研究发现,特别是像ChatGPT这样的大型语言模型(LLMs),在速度和可扩展性方面显著优于手动方法。
患者沟通是另一个关键应用,九项研究表明GenAI生成的回复在同理心和清晰度方面表现出色。一些研究甚至发现这些AI生成的消息比医生撰写的消息更受欢迎,尽管个性化和事实准确性的问题仍然存在。临床决策和预测分别在八项研究中得到了突出体现。虽然一些模型在诊断和预测住院或ICU入院方面表现与医生相当,但在急诊或药物剂量场景中表现不佳,出现了不安全的建议和幻觉输出。
总结是研究最少但仍有潜力的一个类别,四篇研究集中在使出院摘要和放射报告更易理解。另外两项被归类为“其他”的研究探讨了GenAI在生成转诊信和评估医疗保健差异方面的实用性,强调其潜在用途超出了传统的电子病历功能。
研究发现,ChatGPT是最常被评估的模型,出现在超过一半的研究中,其次是其他商业和专有模型,如Claude、微软Co-Pilot、Vicuna和基于BERT的变体。许多研究依赖于公开的数据集,如MIMIC-III和MIMIC-IV,但也有研究使用机构特定的记录,突显了数据来源的多样性。
性能评估结果各不相同。例如,在癫痫预测和罕见疾病表型分类方面,GenAI模型表现出优于仅使用结构化数据的算法。然而,在分诊或肾剂量决策支持任务中,GenAI系统表现不佳,这突显了对上下文理解和强大保障措施的需求。
研究认为,由于电子病历以文本为主,因此它是GenAI集成的自然切入点。GenAI能够处理大量非结构化数据,提取临床见解并与患者沟通,提供了新的工作流程优化和负担减轻的机会。然而,作者警告说,许多应用仍处于概念验证阶段。信任赤字、安全问题、法律模糊性和可解释性问题继续限制其在实际临床环境中的部署。
伦理考虑在研究中占据重要地位。主要风险包括患者隐私泄露、AI幻觉、临床医生过度依赖以及训练数据中的嵌入偏见。随着集成到电子病历中的GenAI的发展,关于责任、监管监督和公平访问的未解决问题是越来越紧迫的。作者强调,虽然GenAI可以支持临床工作流程,但它不应被视为医学判断的替代品。
审查的局限性包括地理偏差。63%的研究来自美国,此外还有方法多样性和许多研究样本量小的问题。此外,由于GenAI模型迅速发展,一些发现可能已经过时。大多数研究评估的是商用模型,限制了对特定领域、经过医学培训系统的洞察。审查没有进行正式的批判性评估,因为该领域仍处于初步阶段。
尽管存在这些局限性,审查指出AI如何增强电子病历的重大转变。从零样本数据提取到用于罕见疾病检测的混合NLP-LLM框架,GenAI提供了传统基于规则系统的可扩展替代方案。然而,整合必须谨慎进行。解释性、安全性和偏见问题需要严格的验证、跨学科合作和持续的人类监督。
(全文结束)


