医疗中的人工智能需要人类监督。医院能否跟上?AI in healthcare needs human oversight. Can hospitals keep up?

环球医讯 / AI与医疗健康来源:www.modernhealthcare.com美国 - 英语2025-01-20 21:00:00 - 阅读时长4分钟 - 1964字
本文探讨了人工智能在医疗领域的应用及其面临的挑战,特别是算法性能下降和缺乏有效监控的问题,强调了人类监督的重要性,并指出医院在资源和技术方面可能面临的困境。
医疗中的人工智能人类监督医院癌症患者肿瘤学家宾夕法尼亚大学预测死亡率算法新冠疫情期间准确性下降埃默里大学RaviParikh不必要的化疗持续监控人员配置斯坦福医疗保健NigamShah医疗成本FDARobertCaliff临床护理系统健康领域人工智能初创公司早期预警系统医生评估标准环境文档总结患者的病史模型审计公平性可靠性数据专家
医疗中的人工智能需要人类监督。医院能否跟上?

准备癌症患者进行艰难的决策是肿瘤学家的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学卫生系统中,医生们通过一种预测死亡率的人工智能算法来提醒他们讨论患者的治疗方案和临终愿望。

但这远不是一个设置好就可以忽略不计的工具。一项2022年的研究发现,在新冠疫情期间,该算法的表现恶化,预测死亡率的准确性下降了7个百分点。

相关报道:医疗系统中的人工智能发展现状

很可能有真实的影响。埃默里大学的肿瘤学家Ravi Parikh是这项研究的主要作者,他告诉KFF Health News,该工具多次未能提示医生与需要这种重要讨论的患者进行沟通——这可能避免了不必要的化疗。

他认为,不仅仅是宾夕法尼亚大学医学中心的算法在疫情期间表现变差,许多旨在增强医疗服务的算法都出现了类似问题。“许多机构并未定期监测其产品的性能”,Parikh说。

算法故障是计算机科学家和医生长期以来承认的一个难题,但这个问题现在开始困扰医院管理者和研究人员:人工智能系统需要持续的监控和人员配置,以确保它们能正常工作。

本质上:你需要更多的人和机器来确保这些新工具不会出错。

“每个人都认为人工智能将帮助我们提高医疗的可及性和能力,改善护理等”,斯坦福医疗保健的首席数据科学家Nigam Shah说,“所有这些都是美好的,但如果它使医疗成本增加了20%,这是可行的吗?”

政府官员担心医院缺乏资源来验证这些技术。FDA专员Robert Califf在一个最近的AI专题小组上表示:“我四处寻找,我不相信在美国有任何一个医疗系统能够在临床护理系统中验证一个人工智能算法。”

人工智能已经在医疗保健中广泛使用。算法用于预测患者的死亡或恶化的风险,建议诊断或分流患者,记录和总结访问以节省医生的工作,批准保险索赔等。

如果技术乐观主义者是对的,这项技术将变得无处不在——并且有利可图。投资公司Bessemer Venture Partners已经确定了一些健康领域的人工智能初创公司,每家公司在一年内有望实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。

评估这些产品是否有效具有挑战性。评估它们是否继续有效——或是否出现了软件等效于爆缸或漏油的问题——更加困难。

例如,耶鲁医学最近的一项研究评估了六个“早期预警系统”,这些系统会在患者可能出现快速恶化时向临床医生发出警报。芝加哥大学的医生Dana Edelson表示,一台超级计算机运行了几天的数据,结果表明这六种产品的性能差异巨大。

对于医院和提供者来说,选择最适合他们需求的最佳算法并不容易。普通医生身边并没有超级计算机,也没有AI版的《消费者报告》。

“我们没有任何标准”,前美国医学会主席Jesse Ehrenfeld说,“目前没有任何标准可以指导如何评估、监控或查看已部署模型或算法的性能。”

医生办公室中最常见的人工智能产品之一是环境文档,这是一种技术辅助助手,可以听取和总结患者的访问。去年,Rock Health的投资者追踪到有3.53亿美元流入这些文档公司。但是,Ehrenfeld说,“目前还没有比较这些工具输出的标准。”

这是一个问题,即使是小错误也可能造成灾难性后果。斯坦福大学的一个团队尝试使用大型语言模型——如ChatGPT等流行AI工具背后的技术——来总结患者的病史。他们将其结果与医生的记录进行了比较。

“即使在最好的情况下,模型的错误率也达到了35%”,斯坦福大学的Shah说。在医学中,“当你写总结时遗漏了一个词,比如‘发烧’——这意味着一个问题,对吧?”

有时,算法失败的原因相当合理。例如,基础数据的变化会削弱其有效性,就像当医院更换实验室提供商时。

然而,有时陷阱毫无缘由地出现。

波士顿麻省总医院个性化医学项目的技术主管Sandy Aronson表示,当他的团队测试一款旨在帮助遗传咨询师查找有关DNA变异的相关文献的应用程序时,该产品出现了“非确定性”——即在同一短时间内多次询问同一问题时,给出了不同的结果。

Aronson对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他表示,“这项技术需要改进”。

如果指标和标准稀缺,错误可能会以奇怪的方式出现,那么医疗机构该怎么办?投入大量资源。在斯坦福,Shah表示,仅审计两个模型的公平性和可靠性就花费了8到10个月的时间和115个人工小时。

接受KFF Health News采访的专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家进行监控。所有人都承认,这将要求组织花费更多的钱——鉴于医院预算的现实情况和AI技术专家的有限供应,这是一个艰难的要求。

“有一个愿景,我们可以融化冰山以监控模型”,Shah说,“但这真的是我想要的吗?我们还需要多少人?”


(全文结束)

大健康
大健康