斯坦福医学开发了一种视觉-语言人工智能(AI)模型,可以预测癌症结果,例如预测黑色素瘤复发和患者对免疫疗法的反应。然而,该模型尚未准备好用于临床实践。
多模态变压器统一掩码建模(Multimodal transformer with Unified maSKed modeling),简称MUSK,基于超过5000万张组织病理学图像和来自临床报告的10亿个文本标记进行训练,以预测癌症预后。通过整合视觉和基于语言的数据,该模型模仿了肿瘤学家从多个来源获取信息以做出明智治疗决策的方法。然而,开发多模态模型对于其他精准肿瘤学AI项目来说一直是一个难题。
“在这些之前的[AI发展]中,数据通常是孤立使用的。这个AI团队专注于影像,另一个团队专注于语言,并开发了所有基于单模型的方法,”放射肿瘤学副教授李瑞江(Ruijang Li)表示,“但在实践中,医生现在几乎不会这样做。”
该研究团队主要由斯坦福大学病理学和放射肿瘤学系的研究人员组成,于1月8日在《自然》杂志上发表了一项研究,详细介绍了该模型的架构及其帮助医生为癌症患者制定更有效治疗计划的潜力。
作为基础模型,MUSK基于大量的病理数据进行训练,并可以通过少量额外训练进行特定应用的定制。该模型利用未标记和未配对的数据集,消除了对人工标注图像的需求。
研究人员特别评估了该模型识别具有最高黑色素瘤复发风险患者的性能。MUSK的表现超过了现有的视觉-语言模型,正确识别了83%的高风险患者——比其他模型提高了近12个百分点。
该模型在预测最有可能从免疫检查点抑制剂(ICIs)中受益的晚期胃食管癌患者方面也表现出色,其预测准确性比其他单模态和多模态模型高出7到12个百分点。
“只有20%的患者对免疫疗法有反应,因此我们需要找出并识别这20%的患者,”论文的主要作者、博士后学生向锦西(Jinxi Xiang)表示,“对于那些不会产生反应的患者,我们不会让他们接受治疗,因为这不仅带来经济负担,还有很多副作用。”
该模型能够预测16种主要癌症类型的疾病特异性生存率,准确率为75%。
“显然,诊断之后的一切都非常重要,”斯坦福医疗AI应用研究团队主任林斯文(Steven Lin)表示,“如何管理患者?如何治疗他们?如何预测他们是否会反应?而这个模型解决了这个问题的后半部分,这是非常令人耳目一新的。”
作为一名执业初级保健医生,林斯文认为,利用预测性AI推进个性化医疗正是“医学需要发展的方向”。
为了在高风险临床应用中部署该模型,MUSK团队首先计划用更多数据验证其发现。模型对计算能力和基础设施的高需求也可能在未来向临床环境过渡时带来挑战。
“我们主要依赖于斯坦福医院的数据,但为了建立一个临床可靠的模型,我们实际上需要从其他医院收集更多数据,以便测试它对不同种族、不同特征患者是否具有泛化能力,”向锦西说。
(全文结束)


