来自西奈山伊坎医学院的研究人员确定了在医疗系统规模上实现大型语言模型(LLM)成本效益部署的途径,根据最近发表在《npj数字医学》杂志上的研究。研究团队强调,LLM在优化临床工作流程方面显示出潜力,但AI采用的计算和经济成本对希望大规模利用这些工具的医疗机构构成了挑战。
为了探讨利益相关者如何克服这些障碍,研究人员使用真实患者数据评估了10种不同容量和大小的LLM。为了评估模型性能,每个工具都接受了链式查询和多个复杂度逐渐增加的临床笔记。输出结果从准确性、格式质量和遵守临床指令等方面进行测量。随后进行了经济分析。
“我们的研究动机是寻找实际的方法来降低成本同时保持性能,使医疗系统可以有信心地大规模使用LLM。我们着手‘压力测试’这些模型,评估它们同时处理多项任务的能力,并确定保持高性能和成本可控的策略,”第一作者Eyal Klang博士在新闻发布会上表示。Klang博士是西奈山伊坎医学院数据驱动和数字医学(D3M)部门生成AI研究项目的主任。
研究团队进行了超过30万次实验来测试LLM,结果显示,随着临床笔记和查询数量的增加,性能有所下降。高容量模型表现最好,Meta的Llama-3-70B模型在准确性高且失败率低的情况下脱颖而出。GPT-4 Turbo 128k也表现出类似的结果,但在处理大量提示大小的任务超过50个时,性能有所下降。
“认识到这些模型在重认知负荷下开始挣扎的点对于维持可靠性和运营稳定性至关重要。我们的研究结果突显了在医院中整合生成AI的实际路径,并为进一步调查LLM在现实世界限制内的能力打开了大门,”共同资深作者Girish N. Nadkarni博士解释道。Nadkarni博士是西奈山伊坎医学院的Irene和Dr. Arthur M. Fishberg医学教授,同时也是查尔斯·布朗夫曼个性化医学研究所所长和D3M部门主任。
研究结果进一步表明,LLM通常可以同时处理多达50个临床任务,包括识别适合预防健康筛查的患者、审查药物安全性、提取流行病学研究数据、匹配临床试验患者和构建研究队列等,而不会显著降低准确性。经济分析显示,通过这种方式分组任务,医疗系统可以简化工作流程,将应用程序编程接口(API)成本最多减少17倍,潜在地为大型组织每年节省数百万美元。
研究人员指出,他们的发现可以为医疗系统提供策略,帮助其高效地整合先进的人工智能技术以自动化任务。“这项研究对如何将AI集成到医疗保健系统中具有重要意义。为LLM分组任务不仅减少了成本,还节省了可以更好地用于患者护理的资源,”共同作者David L. Reich博士表示。Reich博士是西奈山医疗系统的首席临床官。“通过认识到这些模型的认知极限,医疗保健提供者可以最大化AI的效用,同时减轻风险,确保这些工具在关键的医疗保健环境中仍然是可靠的辅助工具。”
展望未来,研究团队计划研究这些LLM在临床环境中的表现,并测试新兴模型,以确定其认知阈值是否会随着AI技术的进步而变化。
(全文结束)


