儿童医学研究所(Children's Medical Research Institute, CMRI)的科学家们开发了一种新的方法,利用人工智能(AI)分析数千名患者的癌症样本,以改善治疗效果。这项国际合作的研究成果发表在《癌症发现》(Cancer Discovery)杂志上。
CMRI的ProCan癌症研究项目正在分析儿童和成人癌症中的数千种不同类型的蛋白质(即蛋白质组),以帮助癌症临床医生为其患者匹配最佳的可用治疗方法。通过这项涉及奥地利、澳大利亚、加拿大、希腊、西班牙和美国六个不同国家的30个合作研究小组的研究,他们离这个目标更近了一步。ProCan团队从7,525个癌症样本中获得了蛋白质组数据,这是迄今为止在一个中心生成的最大规模的癌症蛋白质组数据集。
数据集的大小之所以重要,是因为基于蛋白质组预测癌症行为(包括对治疗的反应)需要先进的计算技术,包括需要在大型数据集上进行训练的人工智能。这些数据集不仅包括蛋白质组信息,还包括患者的临床信息。然而,由于数据隐私法规和其他跨境数据传输限制,收集大量患者数据尤其困难,尤其是当多个国家参与时。
ProCan团队展示了如何通过模拟获得使用蛋白质组和临床数据的许可但访问权限非常受限的情况来克服这个问题。他们使用了一种称为联合深度学习的人工智能技术,在多个本地站点存储的数据集上训练AI模型。这些数据集受到防火墙保护。而不是共享临床数据,这些AI模型被发送到一个中央服务器以更新全球模型。重复这一过程多次后,结果表明这种诊断测试的准确性与将所有数据集中在一个数据库中时的准确性基本相同。
该论文的资深作者罗杰·雷德尔教授表示:“当我们第一次看到在高度受限的数据访问条件下获得的结果与所有数据集中在一个地方时的结果一样准确时,这是一个非常激动人心的时刻。”
此外,这项工作还克服了另一个关于蛋白质组数据的问题,这个问题使得构建大规模数据集变得非常困难。不同的研究机构使用不同的方法从癌症样本中获取蛋白质组数据,这成为结合不同研究中心蛋白质组数据的主要障碍。
在这项研究中,研究团队展示了联合深度学习使成功结合CMRI从7,525个癌症样本中生成的蛋白质组数据与其他研究机构使用不同技术生成的蛋白质组数据成为可能,进一步提高了癌症诊断的准确性。
这些进展将加速ProCan实现其使命,即利用蛋白质组数据改善癌症患者的治疗效果。
雷德尔教授说:“CMRI的ProCan研究项目的目的是开发蛋白质组测试,帮助癌症临床医生为每位患者选择最佳的可用治疗方法。通过克服几个主要障碍,我们已经朝着实现这一目标迈出了重要一步。”
(全文结束)


