生成式AI在大型医疗系统中的成本分析:以收入周期为例Generative AI costs in large healthcare systems, an example in revenue cycle | npj Digital Medicine

环球医讯 / AI与医疗健康来源:www.nature.com美国 - 英语2025-10-01 18:53:33 - 阅读时长15分钟 - 7110字
本研究深入分析了大型语言模型在医疗收入周期中的应用成本与性能表现,通过比较临床BigBird本地模型与GPT-4在慢性肾脏病和心力衰竭分类任务中的表现,发现本地模型准确率更高(95.1% vs 89.0%)、执行速度更快(2分钟 vs 4小时)且年度成本显著降低,揭示了商业LLM在医疗编码任务中高达11.5万至460万美元的潜在年成本,指出医疗机构应权衡本地开发与商业解决方案的优劣,结合实际情况选择最优AI实施策略,为医疗系统在AI浪潮中的成本效益决策提供了实证依据。
生成式AI大型医疗系统成本分析收入周期大型语言模型本地模型医疗自由文本分类慢性肾脏病心力衰竭健康保险流通与责任法案
生成式AI在大型医疗系统中的成本分析:以收入周期为例

摘要

大型语言模型在医疗领域的应用持续扩展,特别是在医疗自由文本分类任务中。虽然ChatGPT等基础模型展现出潜力,但其他替代模型在准确性和成本方面表现更优。本研究强调了包括计算成本和模型可靠性在内的重大挑战。在医疗支出不断上升且AI被认为具有降低成本潜力的背景下,本地模型与商业模型的组合可能为医疗系统提供平衡的解决方案。

引言

基础人工智能模型,特别是大型语言模型(LLMs),正越来越多地应用于临床护理和医疗运营中,但重大风险和挑战依然存在,包括问责制、责任、伦理/法律使用、偏见和平等等主要问题¹,²,³。若缺乏对特定应用的临床验证,医疗系统及其服务的患者将面临重大风险。这些担忧中包含模型的可靠性和大规模运营所需的财务成本⁴,本报告对此进行调查。

基础模型(如OpenAI的ChatGPT)的可获取性提高⁵,引发了人们对利用LLMs优化医疗运营的广泛兴趣,特别是涵盖广泛医疗相关任务的医疗自由文本分类。在收入周期运营中,支付方系统正以低成本和高吞吐量自动处理拒付,进一步加重了医疗机构收入周期系统高度依赖人工的努力⁶。对医疗机构而言,从医疗记录中获取账单分类的AI辅助是新兴但快速扩展的领域,如果可靠执行,可能为医疗组织带来积极回报⁷,⁸。尽管LLMs在收入周期中的应用引人注目,但其准确性、效能和成本尚未与已展示早期成功的传统机器学习(ML)方法进行严格比较⁹,¹⁰。

我们的目标是为许多医疗组织面临的决策问题提供见解:基于性能和成本考虑,是购买现成AI工具还是自行创建。我们调查了LLM在医疗收入周期自由文本分类任务中的执行时间、准确性和使用成本,并权衡商业通用模型与本地开发专业模型的能力和成本平衡。具体而言,我们探索了使用ChatGPT-4对电子健康记录(EHR)中的国际疾病分类第10次修订版(ICD)代码进行分类。这项任务代表了账单处理中的核心挑战和LLMs的潜在优势:在庞大复杂的解决方案空间中将非结构化自由文本映射到高度特定的标签。准确的账单代码分类直接影响报销,并减少拒付、少付和审计。此外,我们已使用Clinical-BigBird(一种转换器框架)为每个ICD代码分类组内部开发并部署了深度学习模型,提供了现成的比较¹¹,¹²。我们将ChatGPT-4与内部模型在慢性肾脏病(CKD)和心力衰竭(HF)的独立分类中进行了比较(表1)。从2999份记录中,1079份包含CKD ICD代码,961份包含HF代码,930份既无HF也无CKD。移除了包含CKD和HF代码的30份,最终得到来自191名独特患者的2970份临床记录。含CKD或既无CKD/HF的记录(n=2009)用于评估CKD,而HF+既无记录(n=1891)用于评估HF模型。为HF或CKD预测训练了两个不同的Clinical-BigBird模型,同时评估了两个独立的GPT-4提示在ICD标签准确性、F1分数、精确度、召回率、接收者操作特征曲线下面积(ROC AUC)、精确率-召回率曲线下面积(PR AUC)和执行时间方面的表现。表1显示,与Clinical-BigBird相比,GPT-4的准确率较低(CKD:89.0% vs 95.1%;HF:75.4% vs 94.7%),F1分数较低(CKD:90.2% vs 95.5%;HF:79.3% vs 94.7%),执行时间更长(CKD:2分钟 vs 4小时;HF:2分钟 vs 6小时)。GPT-4模型比Clinical-BigBird表现出更高的假阳性标记率(补充图1)。GPT处理速度较慢可能是由于LLM的计算执行、数据传输和延迟造成的,而使用本地模型可以最小化所有这些因素。

表1 比较Clinical-BigBird(BigBird)模型和GPT-4对临床记录中慢性肾脏病(CKD)或心力衰竭(HF)进行分类的模型结果

商业供应商的LLMs具有本地开发模型不会产生的转嫁成本(基于使用的商业LLM供应商API计费成本)。在第二项分析中,我们利用现有内部ML收入周期模型,估算理论上的LLM转换转嫁成本。我们在本机构运营的四个计费领域使用现有非LLM ML模型,采用代币计数和成本估算:(1)手术室手术的预先授权(Prior Auth),(2)麻醉和手术最终计费(Anes+Sx),(3)疾病ICD分类(ICD),以及(4)医疗程序单位预先授权(MPU)。这些模型使用各种非LLM ML技术创建,均使用临床和手术记录,并包含每日平均处理记录数(300-2200)、每个计费领域的分类组数(25-1000,代表对不同计费代码包进行分类的不同模型)、输入(提示+输入临床文本,2195-3365)和完成(输出文本,100)代币(表2)。代币可以表示整个或部分单词或字符,具体取决于分词方法。由于定价模式随时间波动,我们使用撰写时公开可用的GPT定价来表示最新且最有利的高低成本估计:(GPT 4.1,每100万输入代币2美元,输出代币8美元;GPT 4.1-nano批处理定价,每100万输入代币0.05美元,输出代币0.20美元)。这些计算得出估计的年度转嫁成本范围为11.5万至460万美元,说明了大规模运行LLMs可能产生的成本。

表2 大型语言模型定价估算

这两项独立分析表明,使用Clinical-BigBird创建的本地模型表现更好(表1)且相对成本低于LLMs(表2)。然而,AI系统的开发和维护成本对医疗组织可能相当高,应予以考虑¹³。在企业级医疗系统规模上开发和维护模型面临经济和计算挑战,包括本地信息技术、卫生服务和计算专家的协调。此外,还需要符合健康保险流通与责任法案(HIPAA)的基础设施和高级支持以确保安全。与任何AI使用一样,责任落在最终用户和采用它们的医院系统上。医疗合规风险巨大,大多数预期用途都设计为"人在环路中"。为最小化数据泄漏,本地信息保障至关重要,在本地云基础设施上运行所有模型是最优策略。与商业LLMs的外部云连接包含合规风险和数据流出问题,显著增加了数据暴露风险。

内部开发全新医疗专用LLMs需要跨多个机构的海量数据集、计算机科学和数据工程师、专职医疗编码员、硬件以及专职开发和运营团队。个人薪资成本可能超过每年10万美元,现场图形处理单元(GPU)服务器成本可能超过20万美元,云GPU服务每小时定价可能高达40美元(320或640 GiB GPU内存)¹⁴。尽管估计多变且难以预测,但支持这些能力的内部开发仅限于拥有高级资源的医疗组织¹⁵。例如,安全网组织缺乏实施高成本系统的容量和劳动力¹⁶。虽然商业LLMs仍需要基础设施和支持,但这些要求可能较轻。即使考虑数据流入、流出、存储和维护成本,再加上供应商定价每年每解决方案1万至10万美元¹⁷,商业LLMs可能比内部开发显著更便宜且失败风险更低。

转嫁成本虽大,但可通过减少模型传递次数来降低,例如通过代码组的预分类和集成方法将流程批处理为聚焦任务。在我们的收入周期示例中,记录可预先分类为外科专业,随后仅发送到专业模型,通过使用对领域敏感的LLMs分析特定记录来降低总体成本。另一种降低成本的方法是减少提示大小。我们在调查中使用的提示很大,CKD的提示:记录比率为1.02:1,HF为4.28:1。虽然尝试减少提示长度导致性能下降,但需要探索提示工程技术,因为有机会进一步降低成本并提高性能。

尽管LLMs在我们的调查中经过最少重新配置表现相对良好,但结果不如为单个任务构建的本地模型,这与先前研究一致。任务规模和配置调查显示,随着问题数量、提示大小和记录数量增加,LLM性能会下降¹⁸。高容量(更大)模型表现更好,但在约50个任务时仍会下降。在收入周期运营中,LLMs表现不佳。对于ICD代码分类,研究发现与人工编码员的一致性水平较低(10-25%)且幻觉率高(35%)¹⁹,²⁰。使用LLMs进行CPT代码分类也很差——仅在约35%的血管内神经外科手术中正确识别这些代码²¹。另一项对ICD和CPT代码进行分类的研究发现最高匹配率<50%(GPT-4),并认为"LLMs不适合用于医疗编码任务",因为LLMs"经常生成传达不精确或伪造信息的代码"²²。另一项研究发现,ChatGPT和Gemini均未能为任何案例正确识别CPT代码和修饰符,两种模型均产生多个包含部分或完全不准确代码的响应²³。我们与ICD代码的比较比先前研究表现更好,可能是因为专注于较小的编码子集,但即使在此子集中,LLMs也显著逊于Clinical-BigBird。另一个考虑因素是保持"最新"信息。医学知识广泛、复杂且不断演变。LLMs具有不透明的训练集和访问最新医学研究与指南的不确定性,危及其在临床任务中的实用性,倾向于使用本地调整的、可能更轻量级的模型来完成特定任务。在某些场景中,针对领域特定数据微调的LLMs,或通过提示工程和上下文学习增强的LLMs,表现优于本地深度学习模型²⁴,²⁵。作为本研究探讨的Clinical-BigBird框架的替代方案,应在本地机器上运行语言模型的轻量级、可扩展框架(例如Ollama;gpt-oss-120b和gpt-oss-20b)以及LLM微调应进一步探索。然而,在临床任务中微调或调整大型商业LLMs并不简单,会带来额外成本,且可能没有权限用于敏感数据。使用医疗数据微调LLMs可能会暴露训练数据,需要在微调好处与保护敏感患者数据之间取得平衡²⁶。此外,我们的结果值得进一步研究Google的Gemini、Anthropic的Claude和DeepSeek的DeepSeek等替代性最新基础模型,这些模型可能提供有竞争力的性能和/或成本优势。最后,未来研究应检查额外的临床状况,以扩展本工作的普遍适用性并识别差异。

本报告的主要贡献证明了AI在医院收入周期运营中的实用性,并提供了使用本地开发模型与LLMs成本的宝贵见解。未经调优的LLMs展现出前景并提供便利,但需要额外工作才能充分发挥其效用。随着功能改进和成本降低,每个人都希望它们能成为解决医疗问题的重要技术。最近的调查显示,94%的高管认为AI对他们在未来5年的成功至关重要²⁷,这源于AI应用可降低劳动力成本的观念。由于医院将56%的总运营收入用于劳动力²⁸,2023年美国医疗支出增长7.5%,达到惊人的占国民生产总值17.6%²⁹。AI解决方案可能不仅是一种兴趣,而是一种必要性。AI融入医疗是不可避免的。虽然不同解决方案的技术能力各不相同,但LLMs为加速采用提供了强大机会,特别是如果质量提高且成本降低。虽然本地和供应商解决方案的组合对大多数医疗中心可能是最优的,但资源充足的机构目前可能更倾向于本地解决方案,以获得更低的价格、更易开发和定制能力。

方法

研究设计与数据

本研究是对单一主要学术三级护理医院(密歇根大学)心脏病学和肾脏病学诊所的电子健康记录(EHR)进行的回顾性队列审查,时间范围为2013年1月1日至2023年12月31日,代表用于训练和测试Clinical-BigBird模型的相同数据集。EHR中的临床自由文本被用作每个模型的输入,作为手动收入周期代码分配的主要来源。所有数据均从EHR系统中提取,并经密歇根大学机构审查委员会(HUM00203986)审查和批准,作者遵循STROBE指南(观察性研究报告指南)。从密歇根大学门诊肾脏病学、家庭医学和心脏病学诊所收集了2999份临床记录的随机样本(补充表1)。由于记录中包含敏感的受保护健康信息(PHI),我们的内部信息保障团队对LLMs的使用设置了3000份记录的限制。

模型

我们设计提示以创建两个不同的ChatGPT-4模型,用于从临床记录中分类CKD和HF ICD代码包(补充材料)。提示工程是一个迭代过程,产生长而详细的提示,从而获得最高准确性。我们将这些模型与使用Clinical-BigBird内部开发的ML模型进行比较,这些模型在准备本手稿时已在我们的医疗机构中运行。我们在准确性、F1分数、接收者操作特征曲线下面积(ROC AUC)、精确率-召回率曲线下面积(PR AUC)和执行时间方面评估了这些模型。ICD准确性定义为正确分类代码包(即当计费团队为每份记录分配一个代码时,预测出心力衰竭的一个ICD代码,具体ICD代码不需要匹配)。选择ChatGPT-4进行比较,因为它是研究时最强大的GPT版本。该模型通过API访问,在本地符合HIPAA的Azure云基础设施上私有托管,并通过密歇根大学的OpenAI(美国加利福尼亚州旧金山)/Microsoft(美国华盛顿州雷德蒙德)企业许可证提供。使用提示迭代和人工审查进行GPT提示工程。

从EHR数据创建了两个独立的Clinical-BigBird模型(补充表1)。一个用于慢性肾脏病,使用2013年7月1日至2023年7月1日间门诊家庭医学和肾脏病学专科诊所的149,702份独特临床记录。第二个用于心力衰竭,使用2013年1月1日至2023年1月1日间门诊心脏病学专科诊所的94,965份独特临床记录。训练过程从文本预处理开始,包括删除常见和不常见单词、停用词和摘要,以获得训练输入序列。创建了初始化Clinical-BigBird模型的管道,配置为单标签分类,以及优化器和调度器以实现全局最优。模型提供了唯一标签及其ID的字典,然后将训练序列和真实标签输入管道。将预测与真实标签(例如HF或非HF)进行比较,并应用交叉熵损失来评估与真实的距离,在整个训练过程中记录损失和准确性。在数据不平衡的情况下,损失函数可通过类别权重或数据集下采样进行调整。分析损失和准确性图表以及预测分析,为调整优化器调度器、数据清理或其他参数以优化模型提供了依据。考虑到二元分类和数据不平衡,评估使用了AUC-ROC分数,并持续审查混淆矩阵以获取预测,让利益相关者进行验证。改进结果的迭代涉及根据需要调整因素,可以一次调整一个或同时调整多个。

在第二项分析中,我们检查了如果GPT模型取代我们机构当前运营的四个计费领域的AI分类模型中的本地Clinical-BigBird模型,年度转嫁成本。2024年1月1日至2024年12月31日期间,针对每个计费领域,我们推导出每个分类组的每日平均处理记录数、每个计费领域的分类组数(模型数量)以及每份记录的提示和完成的平均代币数。基于这些数据和公开可用的ChatGPT定价,推导出年度成本,完成对现有收入周期AI模型的全面成本分析。

HF和CKD分类——文本预处理与标记

临床记录限于以下类型:进展记录、病史与体格检查、手术记录或操作记录。每份记录预处理如下:删除否定词及其衍生词(not, no, neither, without, doesn't, isn't, hasn't, didn't)后句子末尾的所有单词(存在非空格或字母的任何字符),移除日期、特殊字符、数字、计量单位、额外空格、常见停用词以及训练数据集中不常见的单词(总使用次数<5次)。使用词频-逆文档频率将文本缩减为最重要的500个单词。预处理后,每份记录输入ML模型。人工医疗编码员被用作参考组和性能比较来源。HF阳性记录是指计费团队手动分配以下至少一个ICD代码的临床记录:I50.1, I50.20, I50.21, I50.22, I50.23, I50.30, I50.31, I50.32, I50.33, I50.40, I50.41, I50.42, I50.43, I50.9, I50.810, I50.811, I50.812, I50.813, I50.814, I50.82, I50.83, I50.84, I50.89。CKD阳性病例是指包含以N18开头的一个或多个ICD代码。

成本与时间分析

确定了四个现有本地AI计费领域进行成本评估:prior Auth、Anes+Sx、ICD、MPU。在实际应用中,Prior Auth模型使用订单、案例请求和临床记录作为输入;Anes+Sx模型使用简短和完整的手术及临床记录;ICD模型使用就诊前最多1年的所有临床记录;MPU模型使用订单集和临床记录。这些模型产生账单代码作为输出(ICD和CPT代码),并使用各种非LLM ML建模方法开发。基于这些数据和公开可用的ChatGPT定价("转嫁"成本,API定价),推导出年度成本,完成对现有收入周期AI模型的全面成本分析。执行时间通过计算每个模型的脚本/程序运行时间得出。代码记录了开始时间和结束时间,总执行时间通过计算差异得出。在与Clinical-BigBird的准确性和执行时间比较中使用了GPT-4。我们使用最新模型定价来表示可用GPT模型的API成本(GPT 4.1,2025年6月8日,每100万输入和输出代币定价分别为2美元和8美元)。GPT 4.1-nano在研究时不可用,但使用了该模型的批处理定价进行比较,代表可用GPT模型的最低成本(每100万输入和输出代币定价分别为0.05美元和0.20美元)。成本通过将提示代币和完成代币分别乘以输入和输出定价计算得出。将这些值相加可得出每个计费领域的平均每记录成本。乘以记录数量和每个领域的分类组数可得出年度成本。

【全文结束】

大健康
大健康