医院正在努力解决如何整合人工智能的问题,既要创造价值,又不会让临床医生不堪重负或产生新的风险。在斯坦福医学院(Stanford Medicine),首席信息官(CIO)迈克尔·普费弗(Michael Pfeffer)博士采取了深思熟虑的方法来普及人工智能并转型工作队伍。
"我们没有首席人工智能官。我们有一个数据科学家团队,因为数据科学是一个学科,但我们没有一个只做人工智能的团队,"普费弗博士在10月初的贝克健康信息技术(Becker's Health IT)会议上表示,"我们说人工智能是一种每个人都需要学习的工具,不仅在IT部门,我们在内部建立了培训,让每个人都了解人工智能的能力,而且组织的其他部门也是如此。"
该医疗系统开发了一门名为"AI基础——人工智能入门"(AI Foundations – AI 101)的课程,在沙盒环境中向非IT专家教授人工智能知识,并生成大规模自动化的想法。该组织最近开发的ChatEHR就来自于这门课程。
ChatEHR旨在将大型语言模型(LLM)功能直接嵌入电子健康记录(EHR),以便实时与病历对话。该组织内的部分医生正在测试ChatEHR,该系统设计为在大约三分钟内回答问题。
"这真是太棒了,"普费弗博士说,"我们现在已经有1000多名用户使用它,所以它已经规模化,但要知道如何使用它,你实际上必须学习如何与模型对话。每个人都接受了如何使用该工具的培训,这真的很好,因为现在你有一支临床医生大军真正理解如何使用这些功能以及他们在做什么。这实际上是关于提升每个人的技能,并理解我们需要思考我们想要解决的问题。"
但人工智能并不能解决所有问题。领导者需要有判断力,知道何时人工智能有益,何时更简单的解决方案更合适。
"如果你不需要,你不想陷入试图用人工智能解决所有问题的兔子洞,"普费弗博士强调,"这种教育和理解水平在前进过程中至关重要。每个人都非常兴奋,我们都在很大的压力下要正确实施人工智能。"
患者数据保护也是首要考虑的问题。首席信息官们在快速创新和创造性与HIPAA(健康保险流通与责任法案)合规性之间取得平衡。斯坦福已经开发了一个治理流程,以构建负责任的人工智能生命周期,使项目能够以正确的保障措施快速评估。该系统的首席数据科学家开发了一个框架,用于公平、有用、可靠的模型,并内置了偏见和伦理评估。该评估围绕传统人工智能(包括预测建模)构建,并扩展到包括生成式人工智能,以便团队可以评估大型语言模型在医学中的表现。
"我们的首席数据科学家实验室提出了一个名为Med Home的东西,这是一个包含许多医学问题和答案的存储库,你可以在许多不同的大型语言模型上运行,以查看它们的表现,"普费弗博士解释道,"我们需要越来越了解生成模型以及它们如何在医学任务中表现,因为它们现在并不好。它们会变得更好,但这是治理周期的一部分,并在你部署东西时提供反馈。"
部署后监控模型对于保持模型正常运行也至关重要。
"当我们越来越多地将模型投入生产时,你可以想象你需要什么样的团队来监控它们,"普费弗博士指出,"了解如何利用技术来真正帮助监控是关键的,但我认为这是一个新兴领域,随着模型的不断进步,我们需要更好地了解它们实际上是否按照我们想要的方式运行。"
斯坦福也在临床决策过程中测试人工智能代理。普费弗博士指出,像脓毒症(sepsis)检测这样的领域将来可能会从代理中受益。
"每个脓毒症模型的输出都是直接给某人的建议,所以该输出的下游工作流程才是真正驱动模型成功或失败的因素,"他说,"但展望未来,模型不仅应该预测谁可能患有脓毒症,还应该开抗生素处方。这就是脓毒症抗生素代理,因此你不需要依赖某人接受建议并采取行动。这在今天并不存在,但我们真的必须开始思考当我们达到代理实际上可以在系统中下订单的水平时会发生什么。这确实具有变革性,需要大量工作才能确保它们正常运行。我们如何确保我们的治理和监控能力在今天的基础上得到测试,以便当我们达到那种未来状态时,我们已经准备好了。"
医疗系统肯定正在为更加技术驱动的未来做准备,但由于人工智能发展的快速步伐,很难看得太远。
"如果你有一个五年的人工智能战略计划,你不妨把它扔掉,"普费弗博士总结道,"你必须关注即将到来的事情,并能够专注于你医疗系统的北极星,渴望提供卓越的患者护理、研究和教育。只要我们专注于这一点,其他一切都会迎刃而解。当我们开始偏离这一点时,我们就会遇到问题。"
【全文结束】


