为了确定癌症的类型和严重程度,病理学家通常会在显微镜下分析肿瘤活检的薄片。但要了解哪些基因组变化正在推动肿瘤的生长——这些信息可以指导治疗方式的选择——科学家必须对从肿瘤中分离出的RNA进行基因测序,这一过程可能需要数周时间,且费用高达数千美元。
现在,斯坦福医学院的研究人员开发了一种由人工智能驱动的计算程序,该程序仅基于标准显微镜图像就能预测肿瘤细胞中数千个基因的活性。这项工具于11月14日在《自然通讯》杂志上在线描述,是利用超过7,000个多样化的肿瘤样本数据创建的。研究团队展示了他们可以使用常规收集的活检图像来预测乳腺癌中的基因变异,并预测患者预后。
“这种软件可以用于快速识别患者肿瘤中的基因特征,加快临床决策过程,并为医疗系统节省数千美元。”该论文的资深作者、生物医学数据科学教授奥利维尔·热瓦尔特博士(Olivier Gevaert, PhD)表示。
这项工作还得到了斯坦福大学研究生玛丽亚·皮祖里亚(Marija Pizuria)和博士后研究员余宁正(Yuanning Zheng, PhD)及弗朗西斯科·佩雷斯(Francisco Perez, PhD)的领导。
基因组驱动
临床上,医生在选择癌症治疗方法时,不仅考虑癌症影响的器官,还考虑肿瘤使用的基因,这些基因会促进其生长和扩散。某些基因的开启或关闭可能会使肿瘤更具侵袭性,更有可能转移,或对某些药物的反应更好或更差。
然而,获取这些信息通常需要昂贵且耗时的基因组测序。热瓦尔特和他的同事知道,单个细胞内的基因活性可以改变细胞的外观,而这些变化往往是人类肉眼无法察觉的。他们转向人工智能来寻找这些模式。
研究人员从16种不同类型的癌症中获取了7,584个癌症活检样本。每个活检样本都被切片并使用一种称为苏木精和伊红染色的方法制备,这是用于观察癌细胞整体外观的标准方法。这些癌症的转录组信息——即细胞正在积极使用的基因——也是可用的。
工作模型
在整合了新的癌症活检样本以及其他数据集(包括转录组数据和数千个健康细胞的图像)之后,研究人员开发的人工智能程序——他们将其命名为SEQUOIA(基于切片表达量量化使用线性注意力)——能够从染色图像中预测超过15,000个不同基因的表达模式。对于某些癌症类型,AI预测的基因活性与真实基因活性数据的相关性超过80%。一般来说,初始数据中包含的任何给定癌症类型的样本越多,该模型在此癌症类型上的表现越好。
“经过多次迭代,模型才达到了我们满意的性能水平,”热瓦尔特说。“但对于某些肿瘤类型,它已经达到了可以在临床上应用的水平。”
热瓦尔特指出,医生在做出临床决策时,通常不是一次只看一个基因,而是看包含数百个不同基因的基因特征。例如,许多癌细胞激活了与炎症相关的数百个基因,或与细胞生长相关的数百个基因。与预测单个基因表达相比,SEQUOIA在预测这些大型基因组程序是否被激活方面更加准确。
为了使数据易于访问和解释,研究人员编程让SEQUOIA以肿瘤活检的视觉地图形式显示遗传发现,让科学家和临床医生看到肿瘤不同区域的遗传变异可能有何不同。
预测患者预后
为了测试SEQUOIA在临床决策中的实用性,热瓦尔特和他的同事们确定了模型可以准确预测其表达的乳腺癌基因,这些基因已经在商业乳腺癌基因组测试中使用。(例如,FDA批准的MammaPrint测试分析了70个与乳腺癌相关的基因水平,为患者提供癌症复发风险的评分。)
“乳腺癌有许多经过充分研究的基因特征,过去十年的研究表明,这些基因特征与治疗反应和患者预后高度相关,”热瓦尔特说。“这使其成为我们模型的理想测试案例。”
研究团队展示,SEQUOIA仅使用染色的肿瘤活检图像就可以提供与MammaPrint相同的基因组风险评分。结果在多个不同的乳腺癌患者群体中重复出现。在每种情况下,被SEQUOIA识别为高风险的患者预后更差,癌症复发率更高,且癌症复发前的时间更短。
目前,该AI模型还不能在临床环境中使用——它需要在临床试验中进行测试,并获得FDA的批准,才能用于指导治疗决策——但热瓦尔特表示,他的团队正在改进算法并研究其潜在应用。未来,他说,SEQUOIA可以减少对昂贵的基因表达测试的需求。
“我们已经证明了这对乳腺癌有多大的用处,现在我们可以将其应用于所有癌症,并查看任何已知的基因特征,”他说。“这是一个全新的数据来源,我们以前从未有过。”
罗氏诊断公司的科学家也是这篇论文的作者之一。
这项研究的资金由美国国家癌症研究所(资助编号R01 CA260271)、比利时-美国教育基金会奖学金、佛兰德研究基金会资助、富布赖特西班牙委员会和根特大学提供。
(全文结束)


