健康系统如何使人工智能对临床医生有用 - AI与医疗健康

将人工智能(AI)引入任何行业的核心挑战之一在于其承诺与风险如此紧密交织。自动化日常任务（如安排预约或编写代码）的工具可以减少繁琐工作并提高生产力，但也可能消除工作岗位。解读图像并提高诊断准确率的算法可能会削弱临床医生的技能。同时，为疾病治疗突破提供动力的数据中心消耗大量淡水并增加电力使用，对邻近社区造成环境危害。

这种二分法体现在两类人之间的分歧上：一类人认为AI可以使任何行业更快、更便宜、更高效；另一类人则关注AI潜在的歧视性和放大危害的能力。在那些工作容易自动化的行业中，对AI的乐观看法往往占主导地位。但在医疗保健领域——AI失误的后果严重，且人类专业知识无法轻易替代——组织必须在创新与谨慎之间取得平衡。

本期《变革护理》探讨了不同规模医疗系统的员工如何使AI在解决业务问题和改善护理方面发挥作用，同时减轻对患者和机构声誉的潜在风险。我们探讨了他们如何区分有前景的想法与一厢情愿的幻想，以及当医疗保健难以解决的问题清单如此冗长时，如何优先考虑用例。他们还分享了如何克服AI进步的常见障碍——通过赢得临床医生的信任，并确保在一个环境中有效的方法在具有不同患者、不同员工和不同财务激励的新环境中也能奏效。

"环境的差异是我们尚未看到AI驱动的治疗模式变革在美国各地显著改善结果的部分原因，"杜克健康创新研究所前人口健康和数据科学负责人马克·森达克(MD, MPP)表示，该研究所支持临床医生利用机器学习和数据科学解决临床问题。"AI还没有它的青霉素时刻，因为实施的背景真正塑造了结果。"

事实上，正如接下来的例子所示，AI的当前价值不仅在于实现特定结果，还在于采用或适应它的过程。这是因为AI的实用性取决于在真实环境中的测试和改进。而在医院和诊所等高风险环境中，这需要新的警觉水平以及跨学科合作，以避免造成伤害。

挑战一：确定投资方向

需要明确的是，人工智能对医疗保健并不陌生。在过去的二十年中，医疗系统已经使用预测性AI模型来筛选来自电子健康记录(EHRs)、放射图像和账单记录的大量数据，以生成有关疾病和医疗系统运营效率的新见解。这些工具依赖大型数据集来识别可用于推断未来结果的模式，例如预测单个患者的疾病进程、发生手术并发症的可能性或对免疫治疗的反应，从而增强了临床决策。它们还通过根据疾病爆发和季节变化预测人员、床位和物资需求来提高效率。此外，它们还通过识别和优先考虑需要后续护理的患者，填补了导致不良健康结果的护理缺口。

随着驱动预测性AI形式的数学模型变得更加复杂，以及它们所依赖的数据更加稳健且操纵成本更低，这些模型已经开始超越人类。在小规模部署中，医疗系统已经证明这些工具可以比人类更早地检测胰腺癌和脓毒症的迹象，尽管实现其潜力面临诸多挑战。

不那么引人注目但对临床医生生产力和士气具有巨大价值的是新一代生成式AI工具，这些工具能够根据提示生成文本和图像。当医疗系统以环境记录员的形式推出这些工具，捕捉和总结医疗访问的关键细节，或作为初步填写预先授权请求的工具时，它们可以减轻被称为"睡衣时间"的下班后工作，这是导致职业倦怠的关键因素。"我听到人们说'我找回了我的生活'。你上次听到有人对技术说这样的话是什么时候？"杜克大学医疗系统首席分析和医学信息学官阿曼多·贝多亚(MD, MMCi)说。

潜在用例和供应商推销现成产品的激增，要求医疗系统做出选择，决定将稀缺的评估和监控资源投资到何处。奥克兰(新西兰)的初级保健医生、前英联邦基金哈克尼斯医疗保健政策与实践研究员乔诺·胡格布吕格(MD)表示，如果没有一个权衡患者和医生利益与AI对底线影响的深思熟虑过程，后者往往会胜出。胡格布吕格曾在斯坦福大学花一年时间研究围绕AI采用的组织行为。"很多决策都集中在C级管理层，那里的价值主张通常基于投资回报，"他说。"这对财务可持续性很重要，但可能导致机构的财务利益与患者或临床医生的需求之间出现错位。"

在杜克和梅奥诊所等大型医疗系统中，采用特定AI模型的决定已被下放到当地医院、部门和专业，而用例的评估和评价方面则在企业层面集中化。与范德比尔特医疗一样，这些医疗系统已建立结构化流程和多学科团队，指导员工评估特定模型是否按预期工作。杜克健康创新研究所和范德比尔特的ADVANCE(加速创新和临床卓越的AI发现和警戒)中心汇集了具有计算机科学、数据信息学、伦理学和人类学专业知识的教师，以及医疗系统管理员和临床医生，以确定员工或外部供应商建议的哪些模型可能需要额外监督，以减轻临床、操作或监管风险。梅奥诊所将验证过程的某些方面嵌入梅奥诊所平台，该部门与AI初创公司和更成熟的公司合作，使用去标识化患者数据测试和改进模型，目标是将有前景的解决方案在全球范围内推广。

在指导员工时，这三家机构都提出类似的问题：该工具试图解决的问题有多大？市场上是否有更简单、更便宜的解决方案？如果没有，模型将依赖的数据来源和质量如何？存在哪些措施，或者需要创建哪些措施来测试其有效性并随时间监控其影响？

自2020年推出以来，梅奥诊所平台主要致力于探索有望改善大量患者结果、提高效率或改善员工留任的创新。不符合"价值观一致"的供应商——如那些开发可能用于延迟或拒绝护理的算法的供应商——被过滤掉。与此同时，解决临床医生痛点的解决方案，例如从数千页医疗记录中提炼关键细节用于第二意见咨询，通常会得到推进。一些项目，如制作梅奥诊所临床医生3D化身的项目，同时针对这三个优先事项。约翰·哈拉姆卡(MD, MS)表示，这些化身可能很快就能在下班时间回答患者的基本问题，例如"我需要戴这个石膏多长时间？"这些化身经过先前视频访问的训练，能够极其逼真地模仿个人的言语模式和行为，几乎无法与人类对应者区分。"我唯一注意到的是，化身手势过多，"他说。

挑战二：创建更准确的患者表征

与能够实时跟踪人们移动、阅读习惯和购买习惯的数字应用和社交媒体平台不同，电子健康记录中捕获的数据呈现出患者及其需求的不完美视图。即使跨越数十年，EHR数据也是基于有限的观察集，以反映个人和社会偏见的特殊方式记录。

例如，范德比尔特研究人员发现，芝加哥和纳什维尔医院的医护人员花更多时间查看和更新白人患者和自费患者的医疗记录，这种做法削弱了依赖文档的AI工具的可靠性，例如扫描医疗记录并在住院患者中发现临床恶化迹象的预警系统。那些在获取护理方面面临经济或后勤障碍的患者的数据也更加有限或完全缺失。

如果不考虑这些差距，AI模型可能会通过将更多注意力和资源集中在已经能够获得医疗服务的患者身上，而忽视那些更严重的患者，从而加剧差距。将仅在几个州的患者数据上训练的AI模型的发现推广也可能存在问题，如果一个地区的患者的社会、行为和种族特征与另一个地区有很大差异。为了确保AI工具从本地数据中学习，PCCI(一家从达拉斯Parkland Health and Hospital System分离出来的非营利研究公司)构建了一个自定义数据集，用于识别低收入患者面临的独特风险因素，以及社区层面条件如何影响他们的健康结果和获取护理的途径。PCCI的基于云的平台结合了来自Parkland和达拉斯地区100多家其他医院和医疗系统的去标识化临床数据。使用地理编码，这些记录与当地犯罪率、空气质量以及交通、杂货店和绿地可达性等约26个非医疗健康驱动因素的公开报告信息相关联。

将AI模型应用于增强的数据集使PCCI能够记录汽车拥有与产前护理获取之间的相关性，表明可以利用远程医疗和拼车计划来减少早产。该非营利组织还发现，生活在吸烟率较高的社区的儿童更有可能经历哮喘加重，生活在食物不安全水平较高的地区的儿童也是如此，这表明家庭可能会优先考虑食物需求而非医疗护理，以拉伸逐渐减少的资源。"解决食物不安全问题的干预措施，如社区农场或充足的SNAP福利，可能会释放家庭资源来支持患有哮喘的脆弱儿童的护理，"PCCI临床领导副总裁、儿科医生约兰德·佩内特泽(MD, MS)说。

人工智能使我们能够捕捉风险因素的微小差异，当这些差异加在一起时，就成为不良结果的重大风险因素。只有使用能够测量微小增量的模型才能可视化这一点。

约兰德·佩内特泽(MD, MS)

PCCI临床领导副总裁

PCCI正在使用这些数据绘制糖尿病、高血压和哮喘疾病负担较高的普查区块，目标是突出可能改善单个患者或社区结果的干预措施。"在一个地区，患者可能无法获得药房。在另一个地区，可能缺乏戒烟计划，"佩内特泽说。

梅奥诊所还利用公共记录数据来加强其AI模型的性能和公平性。一个例子是基于住房的社会经济地位(HOUSES)指数，该指数使用房产记录中的标准化细节——如患者住所的卧室和浴室数量、其平方英尺和估计房产价值——作为家庭财富的代理。与传统的调查方法不同，传统方法资源密集且依赖于间歇性询问患者问题，HOUSES指数可以普遍应用并与患者地址无缝链接。这样做揭示了为改善哮喘管理而开发的AI模型对高收入患者取得了良好效果，但对低收入人群效果较差。同样，该指数使梅奥诊所研究人员能够识别肾脏移植获取方面的差距。

哈佛医学院和哈佛朝圣者医疗保健研究所副教授朱莉娅·马库斯(PhD, MPH)发现，如果没有将社会经济和社区层面条件纳入AI模型，预测患者感染HIV风险的算法对白人男性效果良好，但对女性或黑人男性效果较差。一旦纳入贫困、缺乏保险和患者社区中HIV流行率等新变量，这些算法对两组人群都变得更加准确。

更复杂的是说服临床医生相信算法而非自己，特别是那些习惯于使用临床或行为特征来评估风险的临床医生（例如，患者是否是有同性性行为的男性或被诊断患有性传播疾病）。马库斯和同事试点了一种决策支持工具，该工具提醒初级保健医生，他们的一小部分患者（2%）被诊断出患有HIV的可能性比一般人群高出100倍，但当患者情况不符合他们的期望时，一些临床医生认为该工具出现故障。为了说服他们算法的有效性，他们展示了使用传统标准会遗漏的患者数量，并添加了新领域如何帮助的说明。

挑战三：鼓励员工使用但不误用AI工具

安吉尔·阿诺特(MD, MSc, MBA)表示，临床医生可能更快采用那些减少摩擦、恢复时间或改善他们关心的结果的工具，但当工具增加复杂性或重复工作时，他们的信任就会减弱。阿诺特是不列颠哥伦比亚省省级卫生服务局的外科肿瘤学家和首席医学信息学官，她在凯撒医疗机构加利福尼亚总部花了一年时间研究如何将数字技术有意义地整合到临床医生工作流程中，以最大限度地提高癌症患者的价值。

马克·森达克表示，对AI模型工作原理缺乏透明度也可能导致人们将他们的愿望投射到技术上，赋予它不具备的技能。例如，当杜克实施一个模型来识别可能从姑息治疗咨询中受益的住院患者（因为他们比其他患者更不可能存活到出院）时，临床医生开始询问他们是否可以使用该工具对重症监护室床位的患者进行分诊。"这听起来可能是一种良性的次要用途，但它完全不安全，"森达克解释说，因为新用途需要捕捉不同时间跨度、患者特征、临床干预和结果的新训练数据。

杜克开发了一张类似于营养或床垫标签的"模型事实"卡，以强化AI模型应仅用于其训练的特定目的这一理念。该模板详细说明了如何进行模型评估——例如，针对哪些患者群体以及在何处——并概述了误用相关的风险。杜克还通过在"无声"或"影子"试验中测试某些AI工具来限制访问。此类试验允许医疗系统在后台运行AI工具，使用实时数据测量其性能和功能，而不允许工具影响或改变临床决策。在其他情况下，他们将行动决定权交给中介。

例如，脓毒症检测算法的结果被传递给一个专门的现场护士团队，他们确定哪些病例需要关注。在他们努力教育临床医生了解新工具并建立对其的信任时，他们避免使用"人工智能"一词，并向一线提供者强调个别病例的结果，同时向管理人员报告总体趋势。

范德比尔特还有一支专门的团队，经过培训可在AI模型部署后识别和响应新出现的问题。为了指导他们的工作，该医疗系统推出了范德比尔特算法监控和运营系统(VAMOS)。该仪表板的功能类似于空中交通管制系统——监控医疗系统批准使用的300多个AI模型。它标记意外结果和其他需要人工干预的性能问题，例如模型按种族准确性变化。"持续评估非常重要，因为这些工具中的许多会随时间漂移并对亚群产生不同影响。根据医院楼层的不同，它们甚至可能有不同的表现，"范德比尔特医疗ADVANCE中心联合主任彼得·恩比(MD, MS)说。

挑战四：解决患者对AI的顾虑

虽然许多临床医生和患者对AI使护理更可及、更个性化或更具成本效益的潜力感到兴奋，但有些人担心驱动AI模型的数据如何管理和使用。《JAMA网络公开》对美国成年人的调查发现，消费者对医疗系统负责任地使用人工智能深表怀疑，并且对AI的临床应用比行政应用（如文档、计费和调度）更放心。患者可能认为后者更容易受到操纵，进而限制他们获取护理或增加成本。

该研究作者之一、明尼苏达大学公共卫生学院健康政策和管理助理教授佩奇·诺格(PhD)看到了AI如何可能使护理更加昂贵：她的医生办公室鼓励她在年度访问期间不要提及"问题"，因为记录访问的环境记录员会捕获它们并重新编码访问，为她产生共同支付额。她在《JAMA健康论坛》评论中指出，如果环境记录员的使用导致更密集的计费，可能会侵蚀患者信任。

随着医疗系统和AI供应商共享数据，保护医疗记录的隐私也是一个令人担忧的问题。医疗记录中的图像正在进入公开可用的AI训练数据集，而且并不总是清楚它们是如何进入的。一些数据可能被网络爬虫或跟踪器捕获，这些跟踪器在患者与医疗系统的在线门户互动时，抓取有关患者医疗状况、处方和预约的信息。《标记》和《STAT》的一项调查发现，《新闻周刊》100家顶级医院名单中三分之一的医院在其网站上嵌入了Meta的Pixel跟踪器，引发了集体诉讼，包括杜克最近解决的一起。

许多大型医疗系统还与谷歌、微软和其他大型科技公司签订了研究协议，使他们能够获得其训练模型和计算能力，以换取访问去标识化数据的机会。在其他情况下，医疗系统直接将去标识化数据出售给经纪人，后者将其营销给制药公司和AI开发人员。

梅奥诊所要求训练数据保留在其控制下的基于云的容器内。但即使有这种保障，非结构化临床记录中的细节仍有可能揭示患者身份。提及独特的职业、广为人知的事件（如受害者姓名在新闻中报道的车祸）或罕见的身体特征（如两只不同颜色的眼睛）如果不加检查，都可能作为识别标识。

为了解决这个问题，梅奥诊所与范德比尔特生物医学信息学和数字隐私领域的领先专家布拉德·马林(PhD)合作，制定去标识化标准。他们共同确定了除姓名外哪些细节应被删除或修改以防止重新识别。他们设定的阈值是，任何共享特征必须适用于至少10个人，以最小化单个患者被单独挑出的可能性。

最常见的去标识化方法涉及患者隐私与AI模型预测价值之间的权衡：

抑制：使眼色等识别细节不可见
随机化：例如，向所有出生日期添加一个月，使它们不再与其他数据集匹配
泛化：使数据更加抽象——例如，使用邮政编码的三到四位数字，而不是全部五位

马林撰写了关于保护存储在电子健康记录中的生殖健康数据的挑战的文章，他表示，如果患者不信任医疗系统来保护他们的数据，或者感觉他们的个人信息被用于盈利，他们就不会寻求护理。"这是我最大的恐惧。如果人们失去信任，他们只会说，'医疗保健有什么意义？'"为了防止这种情况，范德比尔特创建了一个由10名患者和家庭成员(即将增至15名)组成的AI患者和家庭咨询小组。该小组每月开会审查医疗系统正在做的事情。"我们经常求助于患者和家庭来帮助定义成功指标，"与人类学家劳里·诺瓦克(PhD, MHSA)共同管理该小组的伦理学家苏珊娜·罗斯(PhD)说。对于需要更广泛输入的问题，范德比尔特调查了1000名承诺回答关于AI使用的临时查询的患者。

前进的道路

宾夕法尼亚大学医疗系统前哈克尼斯研究员、新加坡注册护士布里奇特·吴(PhD)表示，在AI开发的最早阶段更积极地参与患者和一线员工可能会加快采用。"我发现当护士参与设计和部署过程时，这些工具往往更适合工作流程，"她说。"当他们感到被排除在外时，AI可能会感觉像是另一层监督或监视。"

在资源受限的环境中，很难为AI工具的安全实验创造空间，但吴认为这也会有帮助。"无论AI系统多么复杂，只有当人们理解它、相信它并在现实护理中对其应用感到自信时，它才能发挥作用，"她说。这包括有空间提问和质疑模型的有效性。

Ed Middleton, MBBS表示，这样的反馈循环至关重要，因为AI比传统软件更具动态性。它可能在测试中表现良好，但在新环境中衰减或漂移。"为了防范这一点，我们必须不断问自己，'这个模型对每个人是否公平地表现？'"这位曾在斯坦福大学花一年时间研究AI监管如何缓解或加剧健康不平等的前哈克尼斯研究员说。"当你假设模型在任何地方都很好并且不寻找偏见时，你就会遇到问题，"他说。

《长期解决方案：用适用于每个人的策略解决美国医疗保健危机》一书的作者、英联邦基金董事会成员Vivian Lee, MD, PhD, MBA表示，照亮信任、员工参与和公平方面的缺陷可能是AI的隐藏超能力之一。"AI为我们提供了更富想象力地思考如何与人们——我们的患者和员工——沟通和互动的机会，以实现更好的健康，"她说。

【全文结束】

健康系统如何使人工智能对临床医生有用How Health Systems Make Artificial Intelligence Useful to Clinicians | Commonwealth Fund