医疗保健AI本应节省资金,结果却需要大量昂贵的人力Health Care AI, Intended To Save Money, Turns Out To Require a Lot of Expensive Humans

环球医讯 / AI与医疗健康来源:kffhealthnews.org美国 - 英语2025-01-10 18:00:00 - 阅读时长5分钟 - 2014字
本文探讨了医疗保健AI系统在实际应用中遇到的问题,尽管初衷是为了节省资金,但这些系统需要持续监控和大量人力资源支持,导致成本增加,引发了医院管理者和技术专家的关注。
医疗保健AI算法癌症患者肿瘤学家宾夕法尼亚大学新冠疫情期间性能下降埃默里大学拉维·帕里克化疗持续监控斯坦福医疗尼加姆·沙阿FDA罗伯特·卡利夫早期预警系统耶鲁医学芝加哥大学达纳·埃德森美国医学协会杰西·埃伦费尔德环境记录RockHealth大型语言模型ChatGPT病史总结波士顿麻省总医院布莱根妇女医院遗传咨询师DNA变异公平性可靠性模型审计
医疗保健AI本应节省资金,结果却需要大量昂贵的人力

准备癌症患者做出艰难决定是肿瘤学家的工作。然而,他们并不总是记得去做这件事。在宾夕法尼亚大学健康系统中,医生们被一种预测死亡概率的人工智能算法提醒,与患者讨论治疗方案和临终愿望。

但这远不是一个“设置好就不用管”的工具。一项例行技术检查发现,该算法在新冠疫情期间性能下降,预测死亡率的能力恶化了7个百分点,根据2022年的一项研究。

这可能对现实生活中产生了影响。埃默里大学的肿瘤学家拉维·帕里克(Ravi Parikh),作为该研究的主要作者,告诉KFF Health News,该工具多次未能提示医生与需要讨论的患者进行重要对话——这可能避免了不必要的化疗。

帕里克认为,不仅仅是宾夕法尼亚大学医学中心设计的算法在疫情期间减弱了,许多旨在增强医疗服务的算法也是如此。“许多机构并未常规监测其产品的性能”,帕里克说。

算法故障是计算机科学家和医生长期以来承认的一个难题,现在开始让医院管理者和研究人员感到困惑:人工智能系统需要持续监控和人员配置,以确保它们正常工作。

简而言之:你需要更多的人和机器来确保新工具不会出错。

斯坦福医疗保健首席数据科学家尼加姆·沙阿(Nigam Shah)表示:“每个人都认为AI会帮助我们提高访问和容量,改善护理等。”“所有这些都是美好且正确的,但如果它使护理成本增加了20%,这是可行的吗?”

政府官员担心医院缺乏资源来测试这些技术。FDA专员罗伯特·卡利夫(Robert Califf)在最近的一次AI专题小组会议上表示:“我四处寻找。”“我不相信在美国有任何一个医疗系统能够在临床护理系统中验证一个AI算法。”

AI已经在医疗保健中广泛应用。算法用于预测患者的死亡或恶化风险,建议诊断或分诊患者,记录和总结访问以减少医生的工作量,以及批准保险索赔。

如果技术乐观主义者是对的,这项技术将成为普遍存在的——并且有利可图。投资公司Bessemer Venture Partners已经确定了大约20家专注于医疗健康的AI初创公司,每家预计每年将实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。

评估这些产品是否有效具有挑战性。评估它们是否继续有效——或者是否出现了软件等同于爆裂的气门或漏水的引擎——更加困难。

例如,耶鲁医学最近的一项研究评估了六个“早期预警系统”,这些系统会在患者可能迅速恶化时提醒临床医生。芝加哥大学的医生达纳·埃德森(Dana Edelson)和一家提供其中一个算法的公司的联合创始人表示,超级计算机运行了几天的数据。这个过程是有益的,显示出六种产品之间的巨大性能差异。

对于医院和提供商来说,选择最适合他们需求的算法并不容易。普通医生没有超级计算机,也没有AI的《消费者报告》。

美国医学协会前主席杰西·埃伦费尔德(Jesse Ehrenfeld)表示:“我们没有任何标准。”“今天我无法指出任何关于如何评估、监控、查看部署后的模型或算法(AI启用或未启用)性能的标准。”

医生办公室中最常见的AI产品之一是环境记录,这是一种技术辅助助手,可以听取和总结患者访问。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但是,埃伦费尔德说,“目前没有比较这些工具输出的标准。”

这是一个问题,即使小错误也可能造成毁灭性后果。斯坦福大学的一个团队尝试使用大型语言模型——如ChatGPT等流行AI工具的基础技术——来总结患者的病史。他们将其结果与医生的记录进行了比较。

“即使在最佳情况下,模型的错误率也有35%”,斯坦福的沙阿说。在医学中,“当你写总结时忘记了一个词,比如‘发烧’——这确实是个问题,对吧?”

有时算法失效的原因相当合理。例如,基础数据的变化会削弱其有效性,就像当医院更换实验室供应商时一样。

然而,有时问题出现的原因并不明显。

波士顿麻省总医院和布莱根妇女医院个性化医学项目的技术主管桑迪·阿伦森(Sandy Aronson)表示,当他的团队测试一个旨在帮助遗传咨询师查找有关DNA变异的相关文献的应用程序时,该产品表现出“不确定性”——即在短时间内多次询问同一个问题时,给出不同的答案。

阿伦森对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他也认为“技术需要改进”。

如果指标和标准稀缺,错误可能会因奇怪的原因而出现,那么机构应该怎么做呢?投入大量资源。在斯坦福,沙阿表示,审计两个模型的公平性和可靠性花费了8到10个月和115个人工小时。

KFF Health News采访的专家提出了由人工智能监控人工智能的想法,再由一些(人类)数据专家同时监控两者。所有人都承认,这将要求组织花费更多的钱——考虑到医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。

“有一个愿景,我们融化冰山以使模型监控其自身模型,这很好,”沙阿说。“但这真的是我想要的吗?我们还需要多少人?”


(全文结束)

大健康
大健康