一项新的研究发表在《npj数字医学》杂志上,提出了全面的指南,旨在将人工智能(AI)负责任地整合到医疗保健中。随着AI在医学领域的不断进步,深度学习模型已经在检测恶性乳腺病变、肺结节和糖尿病视网膜病变等方面展示了显著的能力。此外,这些模型在改进临床决策、辅助患者分诊和提供治疗建议方面也显示出巨大潜力。
大型语言模型(LLMs)进一步扩展了AI在医疗保健中的潜力。然而,与其他医疗技术一样,LLMs也需要严格的审查、安全监控和验证。AI还带来了新的挑战,如在不同临床环境中的性能差异、疾病模式的变化和人口结构的变动。此外,患者隐私、培训协议、可用性和工作流程适应等问题仍然是重要考虑因素。
LLMs面临更大的审查,因为它们可能会生成无关或不准确的内容,遗漏关键细节,甚至编造不存在的信息。监管机构已经开始迅速适应AI的快速发展,多个领先的实体已经启动了建立高级别指南的工作。尽管如此,确保这些指南在多样化的医疗环境中一致实施仍存在“实质性差距”。
关于研究
在这项研究中,哈佛医学院和麻省总医院布里格姆AI治理委员会的研究人员开发了全面的指南,以有效地和负责任地将AI整合到医疗保健中。他们组建了一个由18位来自各个领域的专家组成的跨职能团队,包括信息学、研究、法律、数据分析、公平、隐私、安全、患者体验和质量。为了确定关键主题,团队进行了广泛的同行评审和灰色文献搜索,涉及AI治理和实施等话题。
研究人员重点关注了以下九个原则:公平、稳健性、公平、安全、隐私、可解释性、透明度、利益和问责制。此外,成立了三个焦点小组来完善指南:1)稳健性和安全性,2)公平性和隐私,3)透明度、问责制和利益。每个小组有47位专家成员。
接下来,团队专注于开发和执行一个结构化的框架,以促进AI指南在医疗保健环境中的应用。他们选择了生成式AI及其在环境记录系统中的应用作为代表性案例研究。这一选择反映了监测生成式AI技术的独特挑战,如确保患者隐私和减轻AI幻觉。
首先进行了一项试点研究,选择了来自不同部门的特定个体。研究人员重点关注隐私和安全,仅与供应商共享严格去标识化的数据,以便进行持续更新和改进。他们与供应商合作,确保严格的去标识化、数据保留政策和数据使用的唯一目的是提高模型性能。
随后,团队进入了一个影子部署阶段,即AI系统与现有工作流程并行运行,但不影响患者护理。影子部署后,关键性能指标(如人口统计学上的公平性、可用性和工作流程集成)得到了严格评估。
研究发现
研究人员确定了几个对医疗保健中负责任实施AI至关重要的组成部分。应强制要求使用多样化和具有代表性的训练数据集,以减少偏见。此外,应通过公平性视角评估结果。定期评估公平性应包括模型重新设计,以确保患者群体的公平受益。
透明沟通AI系统的食品药品监督管理局(FDA)状态同样至关重要。明确指出是否需要FDA批准以及当前AI系统的状态,有助于确保合规并建立信任。应采用基于风险的方法来监控AI系统,使得可能对护理结果引入更高风险的应用程序需要更严格的监控,而那些无风险或低风险的应用程序则需要较少的监控。
初步阶段(试点研究)使全面的功能评估和反馈收集成为可能,这对于早期识别实施中的问题至关重要。在影子部署期间,大多数AI系统的用户来自急诊科和内科。
反馈揭示了系统的优点和改进空间。大多数批评集中在记录体格检查方面,而系统在处理口译员或口音较重的患者时的准确性受到了赞扬。
结论
总之,这项研究展示了一种将AI纳入医疗保健的方法。这种多学科方法为非营利组织、医疗保健机构和政府机构提供了负责任地实施和监控AI的蓝图。案例研究突出了平衡伦理考量与临床效用的挑战,并强调了与供应商持续合作以优化AI系统的重要性。
未来的工作将集中在扩大测试范围,包括更广泛的人口统计学和临床案例多样性,同时自动化性能监控。这些努力旨在确保AI系统在各种医疗环境中保持适应性和公平性。该研究展示了持续评估、监控和适应AI系统的重要性,以确保其在具有挑战性的临床环境中的有效性和相关性。
参考文献:
Saenz, A. D., Centi, A., Ting, D., You, J. G., Landman, A., & Mishuris, R. G. (2024). Establishing responsible use of AI guidelines: A comprehensive case study for healthcare institutions. Npj Digital Medicine, 7(1), 1-6. DOI: 10.1038/s41746-024-01300-8,
(全文结束)


