研究确定了医疗环境中AI成本效益的策略Study identifies strategy for AI cost-efficiency in health care settings

环球医讯 / AI与医疗健康来源:www.eurekalert.org美国 - 英语2024-11-18 19:00:00 - 阅读时长4分钟 - 1718字
研究人员发现通过任务分组等策略,可以显著降低大型语言模型在医疗系统中的运行成本,同时保持性能稳定
医疗环境AI成本效益大型语言模型西奈山伊坎医学院任务分组临床任务成本降低性能保持
研究确定了医疗环境中AI成本效益的策略

纽约,纽约 [2024年11月18日] —— 一项由西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员进行的研究,确定了在医疗系统中使用大型语言模型(LLMs,一种人工智能技术)时保持成本效益和性能的策略。该研究结果发表在11月18日在线版的《npj数字医学》(npj Digital Medicine)上,提供了如何利用先进的人工智能工具高效自动化任务的见解,从而节省时间、减少运营成本,同时确保这些模型在高任务负载下仍能保持可靠。

“我们的研究结果为医疗系统提供了一条路线图,以高效整合先进的人工智能工具,潜在地将大型语言模型(LLMs)的应用编程接口(API)调用成本降低17倍,并确保在重负荷下的稳定性能。”该研究的共同资深作者、西奈山伊坎医学院的医学教授Girish N. Nadkarni博士说。他是西奈山健康系统的查尔斯·布隆夫曼个性化医学研究所(Charles Bronfman Institute of Personalized Medicine)主任,同时也是数据驱动和数字医学(D3M)部门的负责人。

医院和医疗系统每天生成大量数据。像OpenAI的GPT-4这样的大型语言模型,为自动化和优化工作流程提供了令人鼓舞的方法,可以通过协助各种任务来实现。然而,持续运行这些人工智能模型的成本很高,这成为广泛使用的财务障碍,研究人员表示。

“我们的研究动机是寻找实际的方法,在保持性能的同时降低成本,使医疗系统能够自信地大规模使用大型语言模型。我们对这些模型进行了压力测试,评估它们在同时处理多个任务时的表现,并确定了保持高性能和成本可控的策略。”该研究的第一作者、西奈山伊坎医学院D3M的数据生成人工智能研究项目主任Eyal Klang博士说。

该研究涉及使用真实患者数据测试10个大型语言模型,考察每个模型对不同类型临床问题的响应。研究团队进行了超过30万次实验,逐步增加任务负载,以评估模型在需求上升时的管理能力。

除了测量准确性外,研究团队还评估了模型对临床指令的遵守情况。随后进行了经济分析,结果显示,通过任务分组,医院可以降低与人工智能相关的成本,同时保持模型性能不变。

研究表明,通过将多达50项临床任务(如匹配患者参加临床试验、构建研究队列、提取流行病学研究数据、审查药物安全性以及识别适合预防性健康筛查的患者)组合在一起,大型语言模型可以同时处理这些任务而不会显著降低准确性。这种任务分组方法表明,医院可以优化工作流程,将API成本最多降低17倍,对于较大的医疗系统来说,每年可节省数百万美元,从而使先进的AI工具更具财务可行性。

“认识到这些模型在高认知负荷下开始挣扎的点对于维持可靠性和操作稳定性至关重要。我们的研究结果强调了将生成式人工智能整合到医院中的实际路径,并为进一步研究大型语言模型在现实限制内的能力打开了大门。”Nadkarni博士说。

研究人员表示,一个意外的发现是,即使是像GPT-4这样先进的模型,在被推向认知极限时也会表现出压力迹象。这些模型的性能不是出现小错误,而是会在压力下不可预测地周期性下降。

“这项研究对人工智能如何整合到医疗系统中具有重要意义。为大型语言模型分组任务不仅降低了成本,还节省了资源,这些资源可以更好地用于患者护理。”该研究的共同作者、西奈山健康系统的首席临床官David L. Reich博士说。他是西奈山医院和西奈山皇后区医院的院长、霍拉斯·W·戈德史密斯麻醉学教授、人工智能与人类健康及病理学、分子和细胞医学教授。“通过认识到这些模型的认知极限,医疗保健提供者可以在最大化AI效用的同时减轻风险,确保这些工具在关键的医疗环境中仍然是可靠的辅助。”

接下来,研究团队计划探索这些模型在实时临床环境中的表现,管理真实的患者工作量,并直接与医疗团队互动。此外,团队还计划测试新兴模型,以了解随着技术的进步,认知阈值是否会变化,努力制定一个可靠的医疗AI集成框架。最终,他们表示,他们的目标是为医疗系统提供能够平衡效率、准确性和成本效益的工具,提升患者护理水平,而不引入新的风险。


(全文结束)

大健康
大健康