一种新的人工智能模型可以更准确地预测哪些具有自身免疫疾病前期症状的人群会进展到更严重的疾病阶段。自身免疫疾病是指免疫系统错误地攻击身体自身的健康细胞和组织,通常在确诊前有一个以轻微症状或血液中某些抗体为特征的前期阶段。然而,在一些人中,这些症状可能在完全进入疾病阶段之前自行缓解。
了解哪些人可能会沿着疾病路径进展对于早期诊断和干预、改进治疗和更好地管理疾病至关重要。专家们现在开发了一种新方法,用于预测具有前期症状的人群中自身免疫疾病的进展。
研究团队利用AI分析来自电子健康记录和大规模基因研究的数据,得出一个风险预测评分。与现有模型相比,该方法在确定哪些症状会进展到更严重疾病阶段方面,准确性提高了25%到1000%。
“通过针对有家族史或出现早期症状的相关人群,我们可以利用机器学习来识别最高风险的患者,并找到适合减缓疾病进展的治疗方法。这提供了更有意义和可操作的信息,”宾夕法尼亚州立大学医学院杰出教授Dajiang Liu(刘大江)说,他是该研究的共同主要作者。
根据美国国立卫生研究院的数据,大约8%的美国人患有自身免疫疾病,其中绝大多数是女性。刘大江表示,越早发现和干预疾病越好,因为一旦自身免疫疾病进展,损害可能是不可逆的。
在个人被诊断之前,通常会有疾病的迹象。例如,类风湿关节炎患者的血液中可以在症状开始前五年检测到抗体,研究人员解释道。
预测疾病进展的挑战在于样本量。特定自身免疫疾病的人群相对较小,可用的数据较少,因此难以开发出准确的模型和算法,刘大江说。
为了提高预测准确性,研究团队开发了一种称为遗传进展评分(Genetic Progression Score,简称GPS)的新方法,以预测从前期阶段到疾病阶段的进展。
GPS借鉴了迁移学习的概念——一种机器学习技术,即模型在一个任务或数据集上训练,然后微调用于不同但相关的任务或数据集,宾夕法尼亚州立大学医学院公共卫生科学助理教授Bibo Jiang(姜必波)解释道,他是该研究的主要作者。这种方法可以从较小的数据样本中提取更好的信息。
例如,在医学影像中,AI模型可以训练判断肿瘤是有害还是无害。要创建训练数据集,医学专家需要逐个标注图像,这既耗时又受限于可用图像的数量。
刘大江表示,相反,迁移学习使用更多、更容易标注的图像,如猫和狗,创建更大的数据集。该任务还可以外包。模型学会了区分动物,然后可以微调以区分恶性肿瘤和良性肿瘤。
“你不需要从头训练模型,”刘大江说,“模型从图像中分割元素以确定它是猫还是狗的方式是可以转移的。经过一些适应,你可以微调模型以区分肿瘤图像和正常组织图像。”
GPS在大型病例对照全基因组关联研究(GWAS)数据上进行训练,这是人类遗传学研究中常用的方法,用于识别特定自身免疫疾病患者与非患者之间的基因差异,并检测潜在的风险因素。
它还结合了基于电子健康记录的生物银行数据,这些数据包含患者的丰富信息,包括基因变异、实验室测试和临床诊断。
这些数据可以帮助识别处于前期阶段的个体,并描述从前期阶段到疾病阶段的进展过程。来自两个来源的数据随后整合以优化GPS模型,纳入与实际疾病发展相关的因素。
“整合大型病例对照研究和生物银行数据,借用了病例对照研究的大样本优势,提高了预测准确性,”刘大江解释道,高GPS评分的人群进展到疾病阶段的风险更高。
研究团队使用范德堡大学生物银行的真实世界数据预测类风湿关节炎和狼疮的进展,并使用美国国立卫生研究院的“All of Us”生物银行数据验证GPS风险评分。
GPS比仅依赖生物银行或病例对照样本的其他20个模型,以及通过其他方法结合生物银行和病例对照样本的模型,更能准确预测疾病进展。
准确预测疾病进展可以实现早期干预、有针对性的监测和个人化治疗决策,从而改善患者预后,刘大江说。
它还可以通过识别最有可能受益于新疗法的个体,改进临床试验设计和招募。虽然这项研究集中在自身免疫疾病上,但研究人员表示,类似的框架可以用于研究其他类型的疾病。
“当我们谈论代表性不足的人群时,不仅仅是种族。这也可能是一些在医学文献中研究不足的患者群体,因为他们只占典型数据集的一小部分。AI和迁移学习可以帮助我们研究这些人群,减少健康差距,”刘大江说。
“这项工作反映了宾夕法尼亚州立大学在自身免疫疾病综合研究计划中的实力。”
(全文结束)


