尽管医学界对人工智能充满期待,但这些系统需要持续的监控和人力投入来实施和维护。
为癌症患者准备艰难的决定是肿瘤学家的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学卫生系统,医生们被一种预测死亡率的人工智能算法提示,讨论患者的治疗方案和临终愿望。
但这远不是一种“一劳永逸”的工具。一项2022年的研究表明,在新冠疫情期间,该算法的性能下降了7个百分点,导致其预测谁会死亡的能力变差。
很可能产生真实的影响。埃默里大学的肿瘤学家拉维·帕里克(Ravi Parikh),作为这项研究的主要作者告诉KFF Health News,该工具多次未能提示医生进行重要的讨论——可能阻止不必要的化疗——与需要它的患者。
他认为,疫情期间不仅宾夕法尼亚大学的医学算法性能减弱,其他几个旨在增强医疗护理的算法也出现了类似问题。“许多机构并没有常规监测其产品的性能”,帕里克说。
算法故障只是计算机科学家和医生长期以来承认的一个困境,现在开始让医院高管和研究人员感到困惑:人工智能系统需要持续的监控和人力投入来确保其正常运行。
本质上:你需要更多的人和机器来确保新工具不会出错。
斯坦福医疗保健的首席数据科学家尼加姆·沙阿(Nigam Shah)表示:“每个人都认为AI将帮助我们提高访问和容量,改善护理等。” “这些都是好事情,但如果它使护理成本增加了20%,这可行吗?”
政府官员担心医院缺乏资源来验证这些技术。FDA专员罗伯特·卡利夫(Robert Califf)在一个最近的AI专题小组上表示:“我四处寻找。” “我不相信美国有任何一个医疗系统能够在临床护理系统中验证一个AI算法。”
AI已经在医疗保健中广泛使用。算法用于预测患者的死亡或恶化风险,建议诊断或分流患者,记录和总结就诊以节省医生的工作,以及批准保险索赔。
如果技术倡导者是对的,这项技术将变得无处不在——并且有利可图。投资公司Bessemer Venture Partners已经确定了大约20家健康领域的AI初创公司,每家每年有望赚取1000万美元。FDA已经批准了近一千种人工智能产品。
评估这些产品是否有效具有挑战性。评估它们是否继续有效——或者是否出现了软件等效的故障或泄漏——更加困难。
例如,耶鲁医学最近的一项研究评估了六个“早期预警系统”,这些系统会在患者可能出现快速恶化时提醒临床医生。芝加哥大学的医生达纳·埃德尔森(Dana Edelson)和一家提供其中一个算法的公司的联合创始人表示,超级计算机运行了几天的数据,显示六种产品的性能存在巨大差异。
对于医院和提供者来说,选择最适合其需求的最佳算法并不容易。普通医生身边没有超级计算机,也没有AI版的消费者报告。
“我们没有任何标准”,美国医学会前任主席杰西·埃伦费尔德(Jesse Ehrenfeld)说。“今天我没有可以指向任何关于如何评估、监控、查看已部署模型或算法(AI启用或未启用)的性能的标准。”
医生办公室中最常见的AI产品之一是环境文档,这是一种技术辅助助手,它可以听取和总结患者就诊情况。去年,Rock Health的投资者追踪到有3.53亿美元流入这些文档公司。但埃伦费尔德说,“目前还没有比较这些工具输出的标准。”
这是一个问题,即使小错误也可能造成灾难性后果。斯坦福大学的一个团队尝试使用大型语言模型——如ChatGPT等流行AI工具背后的技术——来总结患者的病史。他们将其结果与医生的书写进行了比较。
“即使在最佳情况下,模型的错误率也有35%”,斯坦福的沙阿说。在医学中,“当你写总结时漏掉了一个词,比如‘发烧’——这确实是一个问题,对吧?”
有时算法失败的原因相当合理。例如,基础数据的变化会削弱其有效性,就像当医院更换实验室提供商时。
然而,有时陷阱毫无缘由地出现。
马萨诸塞州综合医院个性化医学项目的技术执行官桑迪·阿伦森(Sandy Aronson)表示,当他的团队测试一款旨在帮助遗传咨询师定位有关DNA变异的相关文献的应用程序时,该产品出现了“不确定性”——即在短时间内多次问同一个问题时,它给出了不同的结果。
阿伦森对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他表示,“这项技术需要改进”。
如果指标和标准稀缺,错误可能会因奇怪的原因出现,那么机构该怎么办?投入大量资源。在斯坦福,沙阿表示,仅审计两个模型的公平性和可靠性就花费了八到十个月和115个人工小时。
接受KFF Health News采访的专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家进行监控。所有人都承认这将要求组织花费更多的钱——鉴于医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。
“拥有一个愿景,我们融化冰山以监控模型的模型是很棒的”,沙阿说。“但这真的是我想要的吗?我们还需要多少人?”
(全文结束)


