在我早期构建医疗运营AI系统的生涯中,我犯了大多数技术团队都会犯的错误。我以准确性来衡量成功。如果系统大多数时候能给出正确答案,我就认为它在正常工作。
一个特定的时刻改变了我的想法。我正在审查先前授权AI系统的输出,注意到一些令人担忧的情况。系统出错的案例并非随机。它们在相同类型的情况下系统性地出错——文档不完整、政策语言冲突、历史先例有限的新程序。
系统不知道这些情况更难处理。它以与处理简单案例相同的信心处理它们。那时我明白了真正的问题:我们构建的系统不知道自己不知道什么。
这是当今部署的大多数医疗AI中的隐藏设计缺陷。行业在提高模型准确性、扩展训练数据集和加速处理速度方面投入了巨大精力。这些都是真实且必要的进步,但几乎没有人关注一个更基本的问题:系统是否知道自己不应该信任自己?
在医疗保健领域,这个问题对患者、支付方和提供者有直接影响。一个以虚假信心处理真正模糊临床案例的预先授权系统,会产生看起来权威但建立在薄弱基础上的决策。系统本应发出不确定性信号,而不是表现出信心。现在,它误导了基于该决策行动的临床医生,或未经仔细审查就批准该决策的专家。
大多数AI系统将上下文视为静态的。你收集相关信息并将其输入模型,模型对所给内容进行推理。我称之为动态上下文工程的学科可以认识到,该上下文的质量和完整性在不同案例间差异巨大,而这种变化本身就是系统在产生任何输出前必须推理的信号。系统不仅要处理上下文,还必须在做出决策前主动测量该上下文中的不确定性。
这一区别引导我开发了一种我称为"通过智能情境建模进行概率推理"(PRISM)的推理框架。其核心思想是在生成任何建议之前,系统首先测量情境上下文实际上有多模糊、不完整或冲突。
并非所有预先授权请求都同样明确。对于诊断记录完善的患者,常规影像请求与直接的政策匹配相比,远不如具有不完整专家笔记、不断发展的支付方政策且没有可比历史先例的复杂肿瘤学案例那么模糊。
PRISM对这种差异进行定量评分并相应地响应,在低不确定性情况下自主进行,在生成任何建议之前将高不确定性案例转交给人类专家审查。当系统不确定时,它不会猜测。它明确表示并将在决策权交给能够处理它的人。
在我部署这种方法时发现,运营效益超出了错误减少。AI与人类专家之间的对话发生了根本性变化。专家不再接受或覆盖黑盒输出,而是接收带有可见不确定性的决策。他们可以看到推理在哪里是稳健的,在哪里是脆弱的,以及哪些额外信息会改变结果。这种透明度将AI从人们容忍的系统转变为人们信任的系统。
当组织重新设计决策方式而不仅仅是模型性能时,这种方法的商业案例变得可行。在实践中,这始于绘制模糊性如何进入当前工作流程——如文档不完整或政策解释不明确——并为这些案例定义明确的升级阈值。
在我的部署中,我们在模型输出上游引入了一个不确定性评分层,结合路由逻辑,确定案例是自主进行还是升级给专家。这需要临床、运营和数据团队围绕不确定性的共享定义保持一致,并建立确保决策可追溯且这些信号对最终用户可见的治理政策。
CMS已就覆盖确定中的算法透明度发布指南,ONC HTI-1规则为用于临床决策支持的AI引入了可解释性要求,强化了采用这种方法的必要性。
最大的挑战之一是文化方面的。团队最初抵制暴露不确定性,认为这会削弱系统。实际上,它提高了信任并减少了下游返工,包括上诉和手动覆盖。
对于医疗保健高管来说,起点不是新技术,而是运营模型的清晰度。定义模糊性存在的地方,对高风险案例强制实施人工回路升级,并优先考虑明确测量和传达不确定性的系统。这就是AI如何从黑盒演变为组织可以信任且监管机构可以接受的决策系统。
在我在这个领域工作多年后观察到,最能驾驭这一环境的高管不是那些询问其AI系统有多准确的人。而是那些提出更难问题的人:当我的AI系统出错时,它是否知道自己错了,并且在基于错误采取行动之前是否传达了这一点?
这个答案揭示了有关AI部署成熟度和安全性的信息,比任何基准指标都多。一个安静地、大规模地、自信地失败的系统是一种风险,直到它已经造成伤害,这种风险才出现在仪表板上。
动态上下文工程及其产生的概率推理框架并不是对AI能力的限制。它们是区分能够赢得持久信任的AI与最终失去信任的AI的关键。
【全文结束】

