许多癌症试验结果无法很好地推广到真实世界的患者。一个研究团队利用TrialTranslator这一机器学习框架系统地测试了癌症随机对照试验(RCT)发现的普适性。研究成果发表在《Nature Medicine》上。
RCT结果的普适性差
随机对照试验(RCT)被认为是评估癌症疗法的黄金标准。然而,其结果往往无法在现实环境中得到验证,导致患者、医生和药物监管机构对这些结果的有限普适性感到担忧。在肿瘤学中,真实世界的生存时间和治疗效果通常显著低于RCT报告的结果,中位总生存期(mOS)有时会减少多达六个月。新型抗癌药物,如免疫检查点抑制剂,在应用于临床试验之外的多样化患者群体时也表现不佳。
差异的原因
造成这种差距的一个关键原因是RCT中使用的限制性入选标准,这使得研究人群无法反映真实世界患者的多样性。试验参与者通常更年轻、更健康,且较少有共病。此外,基于种族或社会经济地位的非正式偏见也可能影响招募。这些局限性未能考虑到真实世界患者的异质性,即使在相同的治疗方案下,他们的结果也可能大相径庭。
目前的研究旨在通过改善对第三阶段RCT评估的癌症治疗在真实世界中的结果预测来解决这一问题。研究人员开发了TrialTranslator这一机器学习(ML)框架,旨在系统评估RCT结果的普适性。通过利用电子健康记录(EHR)和先进的ML算法,该框架识别可能影响治疗结果的模式和表型,从而可以更细致地评估不同患者群体的生存益处。
研究方法
使用Flatiron Health提供的全国性EHR数据库,研究人员应用TrialTranslator评估了11项标志性RCT。这些试验涵盖了四种最常见的晚期实体瘤——转移性乳腺癌(mBC)、转移性前列腺癌(mPC)、转移性结直肠癌(mCRC)和晚期非小细胞肺癌(aNSCLC)。每个RCT通过识别具有匹配癌症类型、生物标志物特征和治疗方案的真实世界患者进行模拟。患者根据ML模型得出的死亡风险评分被分为三个预后表型(低风险、中等风险和高风险)。该框架随后评估了生存结果,包括mOS和受限平均生存时间(RMST),以比较这些表型的治疗效果与原始RCT报告的结果。
关键发现:基于风险的结局差距
研究表明,RCT发现与真实世界结果之间存在显著差异:
- 低风险和中等风险患者:这些表型的生存时间和治疗益处与RCT结果基本一致。例如,低风险患者通常经历的生存益处与临床试验报告的结果相似,mOS仅略有减少(约两个月)。
- 高风险患者:相比之下,高风险表型的结果明显更差。生存益处显著减少——比RCT估计低62%,并且经常超出原始试验报告的95%置信区间。11个模拟试验中有7个未能显示出对高风险患者有临床意义的生存改善(超过三个月)。
总体而言,模拟试验一致估计的生存结果平均比RCT报告的结果低35%。这一差距突显了将试验结果推广到更为多样化的现实世界人群的挑战。
结果的稳健验证
通过广泛的验证,证实了这些发现的稳健性。亚组分析、半合成数据模拟和替代入选标准均显示出一致的结果,进一步证明了TrialTranslator的可靠性。敏感性分析还表明,严格的入选标准对观察到的差异影响很小,表明患者的预后而非入选标准在决定治疗结果方面起着更重要的作用。
对肿瘤学的影响
这些发现强调了临床试验设计和解释需要范式转变。当前的RCT往往忽略了真实世界患者的预后异质性,这导致了其普适性的局限性。特别是高风险患者在现有试验中未得到充分服务,因为他们的结果与RCT结果偏差最大。
像TrialTranslator这样的工具提供了一个有希望的解决方案。通过整合EHR衍生的数据与基于ML的表型分析,它们可以在个体患者水平上提供个性化的治疗益处预测。这有助于更明智的临床决策,帮助患者和医生设定现实的治疗结果预期。此外,这些工具可以通过优先考虑患者预后来革新试验设计。通过根据风险表型分层患者,未来试验可以更好地代表整个癌症患者群体,并提供更准确的治疗效果估计。
结论
“这项研究强调了预后异质性在RCT结果有限普适性中所起的重要作用。”作者总结道,“虽然低风险和中等风险患者可能如预期受益于癌症疗法,但高风险患者往往经历了减少的生存获益。”像TrialTranslator这样的基于ML的框架可以帮助弥合这一差距,使试验更具包容性,并改善真实世界的结果。借助此类工具,肿瘤学可以更接近真正个性化的治疗方式,以满足真实世界患者的多样化需求。
(全文结束)


