新AI模型可评估1000多种疾病的长期风险,并提前十余年预测人类健康变化
AI模型可提前数十年预测疾病风险。Karen Arnott/EMBL-EBI
摘要
- 研究人员开发了一种AI模型,可评估1000多种疾病的长期风险
- 该模型在英国和丹麦的匿名医疗数据上进行了训练和测试,可提前十余年预测健康结果
- 虽然尚未准备好直接用于临床,但该AI模型为研究疾病和指导医疗保健策略提供了新途径
想象一个未来,您的医疗史可以帮助预测您在未来二十年可能面临的健康状况。研究人员开发了一种生成式AI模型,利用大规模健康记录来估计人类健康如何随时间变化。该模型可以预测1000多种疾病的风险和时间,并提前十余年预测健康结果。
这款新的生成式AI模型是使用与大型语言模型(LLMs)类似的算法概念定制构建的。它在来自英国生物银行(UK Biobank)的40万名参与者的匿名患者数据上进行了训练。研究人员还成功地使用丹麦国家患者注册中心(Danish National Patient Registry)中190万患者的测试了该模型。这种方法是迄今为止最全面的示范之一,展示了生成式AI如何大规模模拟人类疾病进展,并在两个完全独立的医疗保健系统的数据上进行了测试。
"我们的AI模型是一个概念验证,证明了AI可以学习我们的许多长期健康模式,并利用这些信息生成有意义的预测,"欧洲分子生物学实验室(EMBL)代理执行主任Ewan Birney表示,"通过模拟疾病如何随时间发展,我们可以开始探索某些风险何时出现以及如何最好地规划早期干预。这是迈向更个性化和预防性医疗保健方法的一大步。"
这项发表在《自然》(Nature)杂志上的工作是EMBL、德国癌症研究中心(DKFZ)和哥本哈根大学之间的合作成果。
用于健康预测的AI
正如大型语言模型可以学习句子结构一样,该AI模型学习健康数据的"语法",将医疗历史建模为随时间展开的事件序列。这些事件包括医学诊断或吸烟等生活方式因素。该模型从这些事件发生的顺序以及事件之间经过的时间来学习预测疾病风险。
"医疗事件通常遵循可预测的模式,"EMBL欧洲生物信息学研究所(EMBL-EBI)的高级科学家Tom Fitzgerald说,"我们的AI模型学习这些模式并可以预测未来的健康结果。它为我们提供了一种基于个人医疗史和其他关键因素探索可能发生的情况的方法。关键的是,这不是确定性,而是对潜在风险的估计。"
该模型对具有清晰和一致进展模式的疾病表现特别好,例如某些类型的癌症、心脏病发作和败血症(一种血液中毒)。然而,对于更多变的疾病,如心理健康障碍或依赖于不可预测的生活事件的妊娠相关并发症,该模型的可靠性较低。
未来用途和局限性
与天气预报一样,这款新的AI模型提供概率而非确定性。它不会准确预测个人将发生什么,但会提供经过良好校准的估计,说明某些状况在特定时期发生的可能性。例如,它可以预测在未来一年内患心脏病的几率。这些风险以随时间变化的比率表示,类似于预测明天有70%的降雨几率。通常,短期预测的准确性高于长期预测。
例如,该模型预测心脏病发作的风险水平各不相同。以英国生物银行60-65岁队列为参考,心脏病发作的风险从某些男性的每年4/10,000到其他男性的约1/100不等,具体取决于他们先前的诊断和生活方式。女性的平均风险较低,但风险分布相似。此外,平均而言,风险随着年龄的增长而增加。对未用于训练的英国生物银行数据的系统评估显示,这些计算出的风险与不同年龄和性别组中观察到的病例数量相符。
该模型经过校准,可产生准确的人群风险估计,预测某些状况在人群组中发生的频率。然而,与任何AI模型一样,它也有局限性。例如,由于模型在英国生物银行的训练数据主要来自40-60岁的人,儿童和青少年健康事件的代表性不足。由于训练数据中的差距,包括某些种族群体的代表性不足,该模型也包含人口统计学偏差。
虽然该模型尚未准备好用于临床,但它已经可以帮助研究人员:
- 了解疾病如何随时间发展和进展
- 探索生活方式和既往疾病如何影响长期疾病风险
- 在难以获取或访问真实数据的情况下,使用人工患者数据模拟健康结果
未来,经过更具代表性数据集训练的类似AI工具可以帮助临床医生及早识别高风险患者。随着人口老龄化和慢性疾病率的上升,能够预测未来健康需求可以帮助医疗系统更好地规划并更有效地分配资源。但在AI模型能够在临床环境中部署之前,还需要进行更多的测试、咨询和建立稳健的监管框架。
"这是理解人类健康和疾病进展的新方式的开始,"DKFZ肿瘤学AI部门负责人、前EMBL-EBI团队负责人Moritz Gerstung表示,"我们的生成式模型有朝一日可以帮助个性化护理并大规模预测医疗需求。通过从大人群中学习,这些模型提供了观察疾病如何展开的强大视角,并最终可能支持更早、更定制的干预措施。"
数据隐私和伦理
该AI模型是在严格的伦理规则下使用匿名健康数据训练的。英国生物银行参与者提供了知情同意,丹麦数据的访问符合要求数据保留在丹麦境内的国家法规。研究人员使用安全的虚拟系统分析数据,无需将数据跨境移动。这些保障措施有助于确保AI模型的开发和使用方式尊重隐私并遵守伦理标准。
资金
这项工作由EMBL成员国贡献、DKFZ资金和诺和诺德基金会(Novo Nordisk Foundation)拨款资助。
【全文结束】