医疗保健AI本应节省资金,结果却需要大量昂贵的人力Health Care AI, Intended To Save Money, Turns Out To Require a Lot of Expensive Humans

环球医讯 / AI与医疗健康来源:www.cancerhealth.com美国 - 英语2025-01-20 20:00:00 - 阅读时长4分钟 - 1815字
本文探讨了医疗保健中人工智能(AI)系统的应用及其面临的挑战,包括算法性能下降、高昂的维护成本以及缺乏标准化评估方法,这些因素使得AI在医疗领域的推广变得复杂。
医疗保健AI人工智能算法死亡风险诊断保险索赔疫情性能下降监控人力支持成本有效性模型医生患者记录总结错误标准资源遗传咨询大型语言模型ChatGPT公平性可靠性
医疗保健AI本应节省资金,结果却需要大量昂贵的人力

人工智能算法被用于预测患者的死亡风险、建议诊断、批准保险索赔等任务。然而,这些技术的应用并非一劳永逸。在宾夕法尼亚大学卫生系统,医生们通过一种人工智能算法来预测患者的死亡风险,从而提醒他们讨论治疗方案和临终关怀偏好。但这种工具远未达到可以设置后就无需关注的程度。一项2022年的研究发现,在新冠疫情期间,该算法的表现恶化了7个百分点,导致其预测死亡率的能力下降。

这可能产生了现实影响。埃默里大学肿瘤学家Ravi Parikh博士表示,该工具多次未能提醒医生进行重要讨论,可能阻止了不必要的化疗。Parikh认为,许多旨在改善医疗服务的算法在疫情期间都出现了性能下降的问题。“许多机构并未定期监控其产品的性能”,Parikh说。

算法故障只是计算机科学家和医生长期承认的一个困境的一部分,现在这个问题开始困扰医院高管和研究人员:人工智能系统需要持续监控和人力支持才能正常运行。简而言之:你需要更多的人力和技术来确保新工具不会出错。

斯坦福医疗保健首席数据科学家Nigam Shah指出:“大家都认为AI可以帮助我们提高医疗服务的可及性和能力,但这会增加20%的成本,这是可行的吗?”政府官员担心医院缺乏资源来验证这些技术的有效性。“我四处寻找”,FDA专员Robert Califf在最近的一次AI专题讨论会上说,“我不相信美国有任何一家医疗机构能够在临床护理系统中验证AI算法。”

AI已经在医疗保健中广泛应用。算法被用来预测患者的死亡或恶化风险、提供建议诊断、记录和总结访问以减轻医生的工作量、以及批准保险索赔。如果技术乐观主义者是对的,这项技术将成为普遍且有利可图的存在。投资公司Bessemer Venture Partners已经确定了大约20家专注于医疗的AI初创公司,每家公司每年有望实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。

评估这些产品是否有效具有挑战性,而评估它们是否继续有效——或是否出现了类似发动机故障或漏油的问题——更加困难。耶鲁医学最近的一项研究评估了六种“早期预警系统”,这些系统会在患者可能出现快速恶化时提醒临床医生。芝加哥大学医生Dana Edelson表示,超级计算机运行了几天的数据,结果显示六个产品之间的性能差异巨大。

医院和提供者很难选择最适合其需求的最佳算法。普通医生身边没有超级计算机,也没有针对AI的《消费者报告》。“我们没有任何标准”,美国医学会前任主席Jesse Ehrenfeld说,“目前没有任何关于如何评估、监控或查看已部署模型或算法性能的标准。”

医生办公室中最常见的AI产品之一是环境记录,这是一种技术辅助助手,可以听取和总结患者访问。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但Ehrenfeld表示,“目前没有比较这些工具输出的标准。”

即使小错误也可能造成灾难性后果。斯坦福大学的一个团队尝试使用大型语言模型——如ChatGPT等流行AI工具的基础技术——来总结患者的病史。他们将其结果与医生的书写进行了比较。“即使在最好的情况下,模型的错误率也达到了35%”,Shah说。“在医学中,如果你在总结时遗漏了一个词,比如‘发烧’——这意味着问题,对吧?”

有时算法失效的原因是显而易见的。例如,底层数据的变化会削弱其有效性,如医院更换实验室提供商。然而,有时问题出现却没有明显原因。

波士顿麻省总医院Brigham个性化医学项目的技术主管Sandy Aronson表示,当他的团队测试一款帮助遗传咨询师查找相关文献的应用程序时,该产品出现了“不确定性”——即在短时间内多次询问相同问题时,它给出了不同的结果。Aronson对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他也表示“技术需要改进”。

如果没有足够的指标和标准,错误可能会以奇怪的方式出现,那么机构该怎么办?投入大量资源。Shah表示,在斯坦福大学,审计两个模型的公平性和可靠性花费了8到10个月的时间和115个人工小时。

接受采访的专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家进行监控。所有人都承认,这将要求组织花费更多的钱——鉴于医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。

“有一个愿景很好,我们融化冰山以监控模型,”Shah说,“但这真的是我想要的吗?我们还需要多少人?”


(全文结束)

大健康
大健康