医疗保健AI旨在节省资金,结果却需要大量昂贵的人力
Health care AI, intended to save money, turns out to require a lot of expensive humans
医院高管和研究人员逐渐意识到,人工智能系统需要持续的监控和人力资源支持,这反而带来了风险和潜在的成本。一位联邦官员怀疑,任何在美国临床使用AI的医疗系统都没有能力验证其工作的有效性。
研究表明,医疗保健中使用的人工智能存在缺陷和挑战,这些问题可能会削弱其有用性并增加成本。例如,在宾夕法尼亚大学健康系统中,医生们被一种预测患者死亡几率的人工智能算法提醒,讨论患者的治疗和临终偏好。然而,这种算法并不是一劳永逸的工具。一项2022年的研究显示,由于新冠疫情的影响,该算法的表现下降了7个百分点,导致其预测死亡率的能力减弱。
很可能这种算法性能的下降不仅仅发生在宾夕法尼亚大学医学院。该研究的主要作者、埃默里大学肿瘤学家拉维·帕里克(Ravi Parikh)告诉KFF Health News,他认为多个机构设计的用于增强医疗服务的算法在疫情期间都出现了性能下降。他指出:“许多机构并没有常规监测其产品的性能。”
算法故障只是计算机科学家和医生长期以来承认的一个困境的一部分,但现在这一问题开始让医院高管和研究人员感到困惑:人工智能系统需要持续的监控和人力资源来确保其正常运行。简而言之:你需要更多的人力和技术来确保这些新工具不会出错。
斯坦福医疗保健首席数据科学家尼加姆·沙阿(Nigam Shah)表示:“每个人都认为AI将帮助我们改善访问和容量,提高护理质量等。这些都是美好的愿景,但如果它使医疗成本增加了20%,这是否可行?”
政府官员担心医院缺乏资源来验证这些技术的有效性。FDA专员罗伯特·卡利夫(Robert Califf)在一个最近的AI专题小组会议上说:“我四处寻找,我不相信美国有任何一个医疗系统能够在临床护理系统中验证一个AI算法的有效性。”
AI在医疗保健领域的应用已经非常广泛。算法被用来预测患者的死亡或恶化风险,建议诊断或分诊患者,记录和总结访视以减轻医生的工作负担,以及批准保险索赔。
如果技术乐观主义者是对的,这项技术将变得无处不在——并且有利可图。投资公司Bessemer Venture Partners已经确定了大约20家专注于医疗的AI初创公司,每家公司每年有望实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。
评估这些产品是否有效具有挑战性。评估它们是否继续有效——或者是否出现了软件等同于“爆缸”或“漏油”的问题——更加困难。
以耶鲁医学最近的一项研究为例,该研究评估了六种“早期预警系统”,这些系统会在患者可能迅速恶化时提醒临床医生。芝加哥大学的医生达纳·埃德尔斯顿(Dana Edelson)表示,超级计算机运行了几天的数据,结果显示这六种产品之间的性能差异巨大。
对于医院和提供者来说,选择最适合其需求的最佳算法并不容易。普通医生身边没有超级计算机,也没有针对AI的《消费者报告》。
美国医学协会前主席杰西·埃伦费尔德(Jesse Ehrenfeld)表示:“我们没有任何标准。今天我没有可以指向的标准来评价、监控或查看部署后的模型或算法(无论是否基于AI)的性能。”
也许医生办公室中最常见的AI产品是所谓的环境记录,这是一种通过技术辅助的助手,它可以听取并总结患者的就诊情况。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但是,埃伦费尔德说:“目前没有标准可以比较这些工具的输出。”
即使小错误也可能造成灾难性后果。斯坦福大学的一个团队尝试使用大型语言模型——即流行AI工具如ChatGPT背后的技术——来总结患者的病史。他们将其结果与医生的书写进行了比较。
斯坦福大学的沙阿表示:“即使在最好的情况下,这些模型的错误率也达到了35%。在医学中,当你在总结时遗漏了一个词,比如‘发烧’——这确实是个问题,对吧?”
有时,算法失效的原因是合理的。例如,基础数据的变化会侵蚀其有效性,就像当医院更换实验室供应商时一样。
然而,有时问题出现的原因却毫无头绪。麻省总医院个性化医学项目的技术主管桑迪·阿伦森(Sandy Aronson)表示,当他的团队测试一款旨在帮助遗传咨询师定位相关文献的应用程序时,该产品出现了“不确定性”——即在短时间内多次询问相同问题时,它给出了不同的结果。
阿伦森对大型语言模型在总结知识方面的潜力感到兴奋,以帮助负担过重的遗传咨询师,但他也表示:“这项技术需要改进。”
如果度量标准和规范稀缺,而错误又会以奇怪的原因出现,那么机构该怎么办?投入大量资源。沙阿表示,在斯坦福大学,仅审计两个模型的公平性和可靠性就花费了8到10个月的时间和115个人工小时。
受访的KFF Health News专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家进行监控。所有受访者都承认,这将要求组织花费更多的资金——鉴于医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。
沙阿说:“拥有一个愿景,让我们融化冰山以监控模型,这是很好的。但这真的是我想要的吗?我们还需要多少人手?”
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。