在人工智能(AI)和医疗保健不断融合的领域,一项关于“AI在精准肿瘤学中的应用”的开创性研究表明,大型语言模型(LLMs)如何通过解锁隐藏在非结构化电子健康记录(EHRs)中的关键数据来改变癌症护理。
Flatiron Health的研究人员,由研究肿瘤学、临床数据部门负责人Aaron B. Cohen博士领导,研究了开源LLMs如何从EHRs中获取PD-L1生物标志物检测的详细信息。结果显示了一个重大进展:当这些AI系统经过高质量、专家标记的数据微调后,它们的表现优于传统的深度学习模型,尽管存在报告不一致和不同类型的癌症问题,但仍取得了惊人的准确结果。这种创新方法可能为利用来自癌症患者的真实世界数据(RWD)进行更高效的精准肿瘤学铺平道路。
临床医生的探索
在担任医学肿瘤学培训生期间,Cohen对研究影响临床决策的因素产生了浓厚兴趣。“我看到许多生命即将结束的患者仍在接受非常激进的治疗,”Cohen说,“我想了解为什么会这样,以及我们如何能够改进这种情况,帮助患者获得更符合他们实际目标的治疗。”
完成培训后,Cohen对临床决策问题的兴趣使他走上了一条意想不到的道路。他没有每天在诊所工作,而是加入了Flatiron Health,被其广泛的患者记录网络和丰富的临床数据所吸引。Cohen渴望了解如何利用这些数据帮助临床医生和患者在接收护理时做出更好的决策。
Cohen每周仍然在纽约市贝尔维尤医院看诊一天,他说:“我亲身体会到文档编制的过程以及浏览病历的复杂性。我知道这些临床细节的重要性,它们是临床试验匹配、决策支持和有意义研究的基础。所有这些都始于准确找到重要的患者信息,如癌症类型、进展日期和不良事件。所有这些信息都埋藏在EHR中,难以提取。”
在过去十年中,Flatiron Health成功地搜索了EHRs,经常利用人工抽象——即人类通过方法论指导查看病历以找到特定数据。对于Cohen来说,人工抽象是一个合理的解决方案,可以浏览患者的访问笔记,解析相关信息,并将其转换为可访问、可分析的结构化格式。因此,当Cohen开始看到LLMs在临床决策中的应用时,他持怀疑态度。
“当你需要从病历中提取复杂信息时,你必须查看多个文档才能找到答案,”Cohen说,“我们过去一直使用人工抽象来完成这项工作,但现在有了LLMs。现在有这些强大而有前景的工具,我最初对此持怀疑态度。但我也意识到其中的潜力。如果[LLMs]能够像人类一样或接近人类的能力,在比人工抽象更大的规模上工作,那将是一个强大而有前景的工具。”
测试LLMs与深度学习模型
Cohen对LLMs的好奇心促使他对它们与Flatiron Health的深度学习模型进行了测试,后者在他看来似乎是提取临床数据的直观选择。深入研究后,深度学习模型似乎更适合数据提取,寻找词与特定指标之间的模式和关系并进行学习。而LLMs仅在语言层面工作,作为复杂的算法反复找出前文后的正确单词。
为了测试这一点,Cohen研究了深度学习模型和LLMs如何从EHRs中提取与PD-L1相关的信息。PD-L1是癌症中的一个重要生物标志物,因为它直接影响治疗决策——如果PD-L1染色水平高于或低于某个水平,它会改变特定癌症类型的治疗方法。它在多种癌症类型中都很重要。
除了深度学习模型外,Cohen和他的Flatiron Health同事——一个跨职能团队,包括肿瘤学家、机器学习工程师和统计学家——还研究了两种LLM方法:零样本和微调。当LLM处于原始状态,未对模型或训练数据进行任何调整时,称为零样本。当LLM需要明确学习它未受过训练的任务时,称为微调。例如,LLMs最初是为了以句子形式给出答案,但Cohen和他的同事希望得到易于分析的结果,具体是以JSON格式输出——这种输出可以转换为CSV或Excel文件进行分析。为此,他们对LLM进行了微调。
“这就像有一本包含所有你能想到的信息的巨大百科全书,但在出版后,有一些新发现是你希望添加进去的,但不想重写整本百科全书,”Cohen说,“所以,想象一下在百科全书的最后一页贴一张便签,上面写着这些信息。你在后台添加了这些信息,以便LLM能更好地完成特定任务。”
虽然零样本LLMs成功地从EHR文档中提取了PD-L1生物标志物检测的详细信息,但输出结果经常无效并表现出幻觉。微调后的LLMs则能够准确地从EHRs中提取复杂的PD-L1检测详细信息,尽管存在显著的癌症类型、文档和时间变异性。
“最令人印象深刻的是,这些LLMs能够超越我们的传统深度学习模型,尽管我们已经训练了这些深度学习模型(即监督学习),并让它们从数万个例子中学习,”Cohen说,“通过对LLMs进行不到一千个例子的微调,我们得到了更好的结果。”
高风险临床决策中的LLMs
凭借其广泛的临床网络,Flatiron Health已准备好将LLMs用于多个方面,Cohen认为一个好的起点是临床试验匹配。例如,单个临床医生要快速确定最适合患者的临床试验是一项艰巨的任务,这需要知道所有相关的临床试验及其不同的纳入和排除标准。每天为多名患者重复这一过程是一项巨大的工作,非常适合LLMs。
Cohen希望解决的下一个问题是临床决策支持,例如根据PD-L1结果判断是否应使用免疫疗法治疗癌症。Cohen说:“有些看似相似的患者接受了相同的免疫疗法,具有相同的PD-L1结果,但我们发现有些人反应良好,有些人根本没有反应。这对临床医生和患者来说都非常令人沮丧。患者会因这些免疫疗法出现副作用,但可能没有任何益处。任何能够更好地分层或细分看似相似的患者,使其分为更有可能和不太可能响应的不同组别,都有助于我们朝着个性化医疗迈进,获得更好的结果并做出更好的决策。”
然而,Cohen认为LLMs单独并不适合临床决策支持,因为所需的数据和预测算法具有多模态性质。不过,Cohen相信它们可以帮助提供底层数据,以便将AI/ML整合到高风险决策中。
“说一名患者EGFR阳性与说该患者具有T790M突变(一种EGFR突变的亚型)之间是有区别的。这些生物标志物结果列出了测试的所有基因,而在其中某处埋藏着实际发现的基因,而在那些发现之下则是导致该结果的具体变化。这份文件中有许多层次的信息,肿瘤学家和其他查看者已经训练自己直接找到相关部分,或者他们甚至不知道哪些是相关的,需要查阅。”
AI时代的医学教育
自该研究撰写以来,已有更新版本的LLMs发布,比Cohen和他的Flatiron Health同事们实验的版本更强大。Cohen认为,LLMs已经发展到可能不需要任何微调就能执行许多临床医生感兴趣的任务的程度,目前正在进行调查。
无论LLMs变得多么强大,它们的效果取决于其数据的质量。“研究结论中不变的一点是高质量的人工标注数据的重要性,”Cohen说,“为了知道LLM是否有效,你需要有参考数据进行比较。这些LLMs变得如此强大,听起来如此自信,以至于你可以把它们的话当作事实而不去评估其正确性。”
LLMs和其他AI/ML工具变得越来越重要,但Cohen认为,如果没有数据信任,它们是无用的。这不仅是因为数据质量的问题,还高度依赖于临床医生的计算素养和理解LLMs的工作原理、它们在哪些方面表现不佳以及如何最大限度地利用它们的能力。
“这是一个双向的过程;你需要推动AI能力的发展,并让临床医生参与进来,”Cohen说,“他们必须了解正在发生的事情,它们是如何工作的,以及它们有多好,才能使用它们或希望他们足够熟悉以正确使用它们。”
然而,这种教育并不是Cohen在医学院学到的——这是他自己对使用计算工具评估真实世界数据以支持临床决策的兴趣。不太可能每个临床医生都会成为自学成才的AI/ML专家。为了让LLMs等技术在拯救生命方面产生最大影响,Cohen强调需要更新医学教育,包括数据密集型和计算复杂的方法。
“我希望这正在发生,”Cohen说,“医学教育可能需要演变和改变,以提出正确的问题,并与技术人员合作,构建真正有用的工具。你也不想等到有人为你构建了某种工具,然后在不了解它的用途、外观以及出错的影响的情况下使用它。”
(全文结束)


