一种人工智能工具正尝试提前多年预测您患多种疾病的风险——工作原理如下 - AI与医疗健康

一种人工智能工具正尝试提前多年预测您患多种疾病的风险——工作原理如下An AI Tool Is Trying To Predict Your Risk Of Getting Many Diseases Years In Advance – Here’s How It Works - Stuff South Africa

环球医讯 / AI与医疗健康来源：stuff.co.za英国 - 英语2025-10-03 18:58:01 - 阅读时长5分钟 - 2119字

英国华威大学和纽约大学的研究团队开发了名为Delphi-2M的人工智能工具，该模型基于个体出生性别、体重指数、吸烟饮酒习惯及既往病史，可预测未来20年内上千种疾病的发生风险与时间点，理论准确率达70%。研究利用英国生物银行40.3万人数据训练模型，并在丹麦生物银行数据中验证有效性，其开源特性和低计算资源需求为医疗预测开辟新路径，但面临种族数据不足、隐私安全及医疗系统差异等现实挑战，目前尚不具备临床应用条件，需进一步优化才能实现个性化健康预测。

能够即时且准确地预测一个人未来数年的健康走向，长期以来被视为医学的巅峰。这类信息将对整个医疗系统产生深远影响——将医疗重点从治疗转向预防。

根据最近发表的一篇论文的研究结果，研究人员正致力于实现这一目标。他们利用尖端的人工智能（AI）技术，开发了名为Delphi-2M的工具。该工具旨在预测一个人的下一个健康事件及其在未来20年内可能发生的时间。该模型能够对包括癌症、糖尿病和心脏病在内的上千种不同疾病进行预测。

为了开发Delphi-2M，欧洲研究团队使用了来自英国生物银行（UK Biobank）近40.3万人的数据作为AI模型的输入。在最终训练好的AI模型中，Delphi-2M基于一个人的出生性别、体重指数、是否吸烟或饮酒以及既往病史时间线，预测下一个疾病及其发生时间。

该模型能够以0.7的AUC（曲线下面积）进行这些预测。AUC汇总了假阳性和假阴性率，因此可以在理论环境中作为准确性的代理指标。这意味着该模型的预测在所有疾病类别中可解释为具有约70%的准确率——尽管这些预测的准确性尚未在现实世界结果中得到验证。

随后，研究人员将该模型应用于丹麦生物银行（Danish Biobank）数据，以验证其是否仍然有效。结果表明，该模型能够以相似的理论准确率预测健康结果。

人工智能工具

该论文的目的并非建议Delphi-2M已准备好供医生或医疗领域使用。相反，它旨在展示团队提出的AI架构的威力，以及其在分析医疗数据方面的潜在益处。

Delphi-2M使用"变换器网络"（transformer network）进行预测。这是为ChatGPT提供动力的相同技术架构。研究人员修改了GPT-2变换器架构，以利用时间和疾病特征来预测何时以及会发生什么。

尽管过去其他健康预测模型也曾使用变换器网络，但这些模型仅设计用于预测一个人患单一疾病的风险。此外，它们主要应用于规模较小的医院记录数据。

但变换器网络特别适合预测一个人患多种疾病的风险。这是因为它们可以轻松调整关注点，并能够从多个不同的数据点中解析出多种疾病之间的复杂交互。

Delphi-2M已被证明比使用不同架构的其他多疾病预测模型略为准确。

例如，Milton模型使用了标准机器学习技术的组合，并将其应用于相同的英国生物银行数据。该模型在大多数疾病上的预测能力略低于Delphi-2M——并且需要使用更多数据才能实现。

此外，非变换器模型难以通过添加更多数据层进行改进。这意味着这些模型无法像变换器模型那样轻松地适应和改进，以用于不同环境和研究。

Delphi-2M模型的特别之处在于，它可以在不损害患者隐私的情况下作为开源模型向公众发布。研究人员能够创建模拟英国生物银行数据的合成数据，同时移除个人身份信息——而且不会显著降低预测能力。此外，与典型的AI变换器模型相比，Delphi-2M训练所需的计算资源更少。

这将使其他研究人员能够从头开始训练该模型，并可能根据自身需求定制模型和信息。这对于开放科学的进步至关重要，在医疗环境中通常难以实现。

为时过早

无论Delphi-2M是否成为旨在预测患者未来健康风险的AI工具的基础模型，它都表明此类模型正在路上。

由于其分层架构和开源性质，未来类似于Delphi-2M的模型将继续通过整合更丰富的数据而发展——例如电子健康记录、医学影像、可穿戴技术和位置数据。这将随着时间的推移提高其预测能力和准确性。

然而，尽管预防疾病和提供早期诊断的能力前景广阔，但在使用这种预测工具时仍存在一些关键注意事项。

首先，与此类工具相关的数据问题众多。正如我们之前所写的，AI工具接收的数据质量和训练决定了其预测的成败。

用于创建Delphi-2M的英国生物银行数据集在不同种族和民族群体方面的数据不足，无法进行深入的训练和性能分析。

尽管Delphi-2M研究人员进行了一些分析，表明添加种族和民族信息对结果影响不大，但在许多类别中数据仍然不足，甚至无法进行评估。

如果在现实世界中使用，个人医疗数据可能会被使用并叠加在Delphi-2M等基础模型之上。虽然包含这些个人数据将提高预测准确性，但也带来了风险——例如个人数据安全和数据的上下文外使用。

将该模型扩展到医疗系统与设计数据集所用系统不同的国家也可能很困难。例如，在美国应用Delphi-2M可能更具挑战性，因为美国的医疗数据分散在多个医院系统和私人诊所中。

目前，Delphi-2M尚不适合患者或医生使用。尽管Delphi-2M基于训练数据提供了通用预测，但目前使用这些预测为个别患者提供个性化健康建议还为时过早。

但希望随着对研究和构建Delphi-2M风格模型的持续投入，未来某一天能够将患者的个人健康数据输入模型，并获得个性化预测。

纳塔莉娅·莱维娜（Natalia Levina）是华威大学商学院信息系统管理与分析系教授，同时任职于纽约大学
希拉·利夫希茨-阿萨夫（Hila Lifshitz-Assaf）是华威大学商学院管理学教授
若昂·塞多克（João Sedoc）是纽约大学技术、运营和统计学助理教授
本文最初发表于《对话》

【全文结束】