新型AI系统可提前数年预测1000多种疾病风险New AI System Predicts Risk of 1,000 Diseases Years in Advance - Decrypt

AI与医疗健康 / 来源:decrypt.co英国 - 英语2025-09-23 18:59:13 - 阅读时长6分钟 - 2714字
一项发表在《自然》杂志的突破性研究显示,名为Delphi-2M的人工智能系统能够基于个人医疗史数据,像语言模型处理文本般解析健康轨迹,提前20年预测1000多种疾病的发病风险,短期预测准确率达76%。该系统通过变换器架构整合诊断代码、生活方式及人口统计信息,不仅能同时评估多种疾病的并发风险,还可生成保护隐私的合成健康轨迹用于公共卫生建模。尽管面临英国数据偏差、罕见疾病预测局限及临床部署挑战,其在心血管疾病和痴呆症预测中已超越传统工具,标志着AI在精准医疗领域取得重大进展,为早期干预和健康资源优化开辟了新路径。
AI系统Delphi-2M疾病风险预测健康轨迹共病医疗史准确率局限性临床部署健康干预
新型AI系统可提前数年预测1000多种疾病风险

Delphi-2M像语言模型阅读文本一样解读您的医疗史——并以惊人准确度预测20年后的健康问题

作者:何塞·安东尼奥·兰兹

编辑:塞巴斯蒂安·辛克莱尔和乔什·奎特纳

2025年9月22日

简要概述

  • 研究人员在《自然》杂志公布了Delphi-2M,这一AI系统可提前20年预测1000多种疾病的风险。
  • 该模型表现优于单一疾病预测工具,能够预测共病情况,并从医疗记录生成合成健康轨迹。
  • 基于英国生物银行数据训练,并在190万丹麦健康记录上验证,Delphi-2M展现出潜力,但也面临偏差、隐私和部署方面的挑战。

研究人员开发了一种人工智能系统,可在症状出现前长达20年预测您患上1000多种疾病的风险,根据本周发表在《自然》杂志的一项研究。

这款名为Delphi-2M的模型在短期健康预测中达到了76%的准确率,即使在预测未来十年的情况时,准确率仍保持在70%。它超越了现有的单一疾病风险计算器,同时评估整个人类疾病谱系的风险。

“人类疾病随年龄发展的特征是健康期、急性疾病发作期以及慢性衰弱期,通常表现为共病集群,”研究人员写道,“很少有算法能够预测整个人类疾病谱系,该谱系在国际疾病分类第十版(ICD-10)编码系统的顶层包含1000多种诊断。”

该系统从402,799名英国生物银行参与者的数据中学习这些模式,随后在190万丹麦健康记录上证明了其能力,无需额外训练。在您开始幻想拥有自己的医疗预测器之前,请注意:您无法亲自尝试Delphi-2M。训练好的模型及其权重被锁定在英国生物银行的受控访问程序之后——这意味着仅限研究人员使用。训练您自己版本的代码库在GitHub上以MIT许可证发布,因此从技术上讲,您可以构建自己的模型,但您需要访问大规模医疗数据集才能使其工作。目前,这仍然是一个研究工具,而非消费级应用。

背后原理

该技术通过将医疗史视为序列来工作——类似于ChatGPT处理文本的方式。每个诊断结果,连同其首次发生的年龄,成为一个“标记”。该模型阅读这种医疗“语言”并预测接下来会发生什么。

在拥有适当信息和训练的情况下,您可以预测下一个标记(在这种情况下是下一个疾病)以及在该“标记”生成前的估计时间(如果最可能的事件集发生,您将在多久后生病)。

对于一位60岁患有糖尿病和高血压的患者,Delphi-2M可能会预测其胰腺癌风险增加19倍。如果在该病史中添加胰腺癌诊断,模型计算出的死亡风险将跃升近一万倍。

Delphi-2M背后的变换器架构将每个人的健康旅程表示为诊断代码、吸烟和BMI等生活方式因素以及人口统计数据的时间线。“无事件”填充标记填补了医疗就诊之间的空白,教导模型时间的简单流逝会改变基础风险。这也类似于普通大语言模型如何理解文本,即使它们错过了一些单词甚至句子。

在与现有临床工具的测试中,Delphi-2M达到或超过了它们的性能。对于心血管疾病预测,它达到了0.70的AUC(曲线下面积),而AutoPrognosis为0.69,QRisk3为0.71。对于痴呆症,它达到了0.81,而UKBDRS为0.81。关键区别在于:那些工具预测单一状况,而Delphi-2M同时评估所有状况。

除了个体预测外,该系统还能生成完整的合成健康轨迹。从60岁的数据开始,它可以模拟数千种可能的健康未来,生成在统计误差范围内的准确人群疾病负担估计。一个合成数据集训练的次级Delphi模型达到了74%的准确率——仅比原始模型低三个百分点。

该模型揭示了疾病如何随时间相互影响。癌症的死亡风险增加具有“半衰期”数年,而败血症的影响急剧下降,在几个月内恢复到接近基线水平。心理健康状况显示出持续的集群效应,一种诊断强烈预测多年后该类别中的其他诊断。

局限性

该系统确实存在局限性。其20年预测的准确率通常降至60-70%左右,但具体取决于所分析和预测的疾病类型和条件。

“对于97%的诊断,AUC大于0.5,表明绝大多数诊断遵循至少部分可预测的模式,”研究报告称,并补充说“Delphi-2M的平均AUC值从10年前的平均0.76降至0.70”,且“在采样的第一年,平均有17%的疾病标记被正确预测,20年后这一比例降至不到14%”。换句话说,该模型在相关场景下预测效果相当好,但20年间可能发生很多事情,因此它并非诺查丹玛斯预言。

罕见疾病和高度环境依赖的疾病更难预测。英国生物银行的人口统计偏差——主要是白人、受过教育、相对健康的志愿者——引入了偏差,研究人员承认需要解决这一问题。

丹麦验证揭示了另一个局限性:Delphi-2M学习了一些英国特有的数据收集特点。主要在医院环境中记录的疾病被人为夸大,与丹麦人登记的数据相矛盾。该模型预测,对于任何有先前医院数据的人,败血症的发生率是正常水平的八倍,部分原因是英国生物银行93%的败血症诊断来自医院记录。

研究人员使用修改版的GPT-2架构训练Delphi-2M,具有220万个参数——与现代语言模型相比很小,但足以用于医疗预测。关键修改包括使用连续年龄编码而非离散位置标记,以及使用指数等待时间模型来预测事件发生的时间,而不仅仅是预测会发生什么。

训练数据中的每个健康轨迹平均包含18个疾病标记,涵盖从出生到80岁的年龄范围。性别、BMI类别、吸烟状况和饮酒情况增加了上下文。该模型学会自动权衡这些因素,发现肥胖增加了糖尿病风险,而吸烟提高了癌症概率——这些是医学长期确立的关系,但在没有显式编程的情况下出现。这确实是针对健康状况的大语言模型。

对于临床部署,仍存在几个障碍。该模型需要在更多样化的人群中进行验证——例如,尼日利亚、中国和美国人群的生活方式和习惯可能大不相同,这会使模型准确性降低。此外,使用详细健康历史带来的隐私问题需要谨慎处理。与现有医疗系统的整合带来了技术和监管挑战。

但潜在应用范围广泛,从识别不符合基于年龄标准的筛查候选者,到模拟人群健康干预措施。保险公司、制药公司和公共卫生机构可能有明显的兴趣。

Delphi-2M加入了一个不断增长的基于变换器的医疗模型家族。一些例子包括哈佛大学的PDGrapher工具,用于预测可能逆转帕金森氏症或阿尔茨海默氏症等疾病的基因-药物组合;一种专门针对蛋白质连接训练的大语言模型;谷歌的AlphaGenome模型针对DNA对进行训练;以及其他模型。

使Delphi-2M如此有趣和不同的是其广泛的行动范围、涵盖疾病的广度、长期的预测视野,以及生成保留统计关系同时保护个人隐私的逼真合成数据的能力。换句话说:“我还有多久?”可能很快不再是一个修辞问题,而是一个可预测的数据点。

【全文结束】