Amber Nigam 是哈佛大学衍生企业basys.ai的联合创始人兼首席执行官,该公司利用生成式人工智能为医疗计划简化预先授权流程。
当下的"代理式AI"热潮令人窒息——这类系统不仅能生成文本,还能自主执行操作。从临床文档自动化到医疗预先授权管理,医疗领域正竞相将AI代理植入每个工作流。这种热潮部分具有合理性,许多系统确实缓解了行政负担。但另一些系统却被更不稳定的因素推动:炒作。
但在这种热潮之下,隐藏着更令人不安的事实:我们正在构建看似复杂却实际脆弱的系统,它们会在静默中失效。
突然关键的非时尚原则
关注点分离(SoC)原则并非新概念。这种经过时间验证的工程方法要求将复杂系统分解为独立组件,每个组件承担明确定义的任务。
想象您的网络浏览器:渲染引擎不处理安全功能,网络堆栈不处理视觉呈现,您肯定不希望广告追踪器同时管理加密协议。然而对于大型语言模型(LLM),我们却被其表象通用性迷惑,要求它们同时进行推理、检索、摘要、决策和解释。
为何SoC突然变得紧迫?因为LLM已不再只是辅助工具,它们开始主动行为:引导临床决策、确定患者资格、规范医疗编码。
可能会出什么问题?
很多。LLM在测试环境可能表现良好,但在生产环境中可能灾难性失败。一个训练用于肿瘤学预先授权的模型可能突然根据训练数据中的模糊关联,推荐标签外用药。更糟的是,使用者往往在造成损害后才察觉错误。
医疗保健领域的隐性陷阱
医疗行业对现成工具的过度依赖已广受诟病。但更大的风险不在于技术债务,而在于认为仅靠临床专家合作就能解决所有问题的幻觉。
临床医生的投入至关重要,但并不足够。LLM存在"错误触发出口"——它们以为完成推理却输出不完整或危险误导的答案。无论怎样微调或举行专家讨论,都无法完全预防这些失败。
首要步骤?承认认知盲区。其次是构建独立于模型本身的系统:
- 定期审计LLM输出
- 检测性能偏移
- 重新验证驱动其"知识"的向量嵌入
LLM不是静态软件包,它们会随着使用、提示词甚至机构工作流程的细微变化而演变。这不是添加分析仪表板的问题,而是要为AI堆栈构建防御性免疫系统。
LLM监护时代:影响力不等于可靠性
坦率说:我们仍未完全理解LLM的工作机制。它们具有影响力,确实能完成任务,但绝不可靠。
医疗领导者必须停止询问模型"是否有效",而应追问其失效的方式和场景。现在的每个医疗LLM都需要"LLM监护人"——专门的监控层,不追踪正常运行时间,而是主动测试:
- 政策偏差
- 医疗分类错误
- 患者风险评估变化
让LLM无监管运行是危险的,这如同将医院出院规划交给一位勤勉但会即兴制定政策的国际实习生。
重构解决方案
解决方案不是放弃AI。答案在于拥抱SoC原则,设计适应性、弹性AI系统,从制定随技术演进的动态规则手册开始:
1. 严格定义检查点
部署验证只是开始,应嵌入自动触发审查的检查点:
- 每次模型更新后
- 当结果偏离临床基线时
- 临床指南或计费代码变更时
2. 建立独立审计系统
这不仅是内部质量检测,需要创建外部独立监督,审查:
- 模型输出
- 嵌入数据源
- 提示词结构
3. 超越协作:应用"三共同原则"
协作是基础但不足:
- 共同创造:与临床医生、患者和监管者共同开发系统
- 共同约束:明确模型不可操作的边界
- 共同修正:建立快速跨职能纠错机制
作为技术专家与临床医生共同开发AI解决方案时,必须优先考虑SoC原则。过去许多失败源于角色混淆、跳过结构性防护措施。早期确立SoC能确保明确责任、稳健执行框架和明确定义的监督检查点。最重要的是提供结构化排错方式,因为失败不是假设,而是必然。
艰难真相:简单不卖座,但有效
SoC原则不够炫目,不会登上会议头条,无法让产品演示精彩。但在以生命而非点赞为衡量标准的医疗领域,枯燥胜过崩溃。LLM将重塑医疗,但前提是学会将它们的关注点与我们的雄心分离。
本文由basys.ai联合创始人兼首席执行官Arpan Saxena共同撰写,他是福布斯商业委员会成员。
【全文结束】


