AI工具尝试提前数年预测多种疾病风险——工作原理揭秘
An AI tool is trying to predict your risk of getting many diseases years in advance – here’s how it works
能够即时准确预测个体未来数年的健康轨迹,长期以来被视为医学的巅峰目标。这类信息将对整个医疗系统产生深远影响——推动医疗重心从治疗转向预防。
根据近期发表的研究成果,研究团队正致力于实现这一愿景。通过尖端人工智能技术,研究者开发了Delphi-2M模型,旨在预测个体未来20年内最可能发生的健康事件及其发生时间。该模型可针对包括癌症、糖尿病和心脏病在内的千种不同疾病进行预测。
为开发Delphi-2M,欧洲研究团队将英国生物样本库近40.3万人的数据输入人工智能模型。在最终训练完成的模型中,系统依据个体出生性别、体重指数、吸烟饮酒习惯及既往疾病时间线,预测其下一疾病事件及发生时间。模型预测准确率达到0.7曲线下面积(AUC),该指标综合反映假阳性与假阴性率,理论上可解读为跨疾病类别的整体准确率约70%——尽管这些预测尚未经过真实世界结果的验证。研究团队随后将模型应用于丹麦生物样本库数据,发现其理论准确率保持稳定。
AI工具
本研究目的并非宣称Delphi-2M已适用于临床医疗,而是展示研究团队提出的AI架构的潜力及其分析医疗数据的价值。Delphi-2M采用"变压器网络"进行预测,该技术架构与驱动ChatGPT的相同。研究者修改了GPT2变压器架构,使其能结合时间与疾病特征预测事件发生内容及时间点。
尽管既往健康预测模型也曾使用变压器网络,但那些模型仅针对单一疾病风险设计,且主要应用于小规模医院记录数据。而变压器网络特别适合预测多疾病风险,因其能灵活调整关注焦点,并从多源数据点解析不同疾病的复杂交互关系。Delphi-2M的准确率也略优于采用其他架构的多疾病预测模型。
例如Milton模型虽采用传统机器学习技术处理相同英国生物样本库数据,但对多数疾病的预测能力低于Delphi-2M,且需消耗更多数据。更重要的是,非变压器模型难以通过增加数据层进行优化,这意味着它们无法像变压器模型那样便捷地适应不同研究场景。
Delphi-2M的特殊价值在于可作为开源模型发布而不损害患者隐私。研究者创建了模拟英国生物样本库特征的合成数据,在剔除个人身份信息的同时保持预测能力。此外,该模型训练所需计算资源低于典型AI变压器模型,这将使其他研究者能从头训练模型并按需定制,对推动开放科学意义重大,这在医疗领域尤为难得。
仍需时间验证
无论Delphi-2M能否成为预测患者健康风险的AI基础模型,它都标志着此类技术已步入发展轨道。凭借其分层架构与开源特性,未来类似模型将通过整合电子健康记录、医学影像、可穿戴设备和地理位置等更丰富数据持续进化,逐步提升预测精度。
然而疾病预防与早期诊断的前景虽广阔,该预测工具仍存在关键局限。首先,数据质量决定AI预测成败。用于训练Delphi-2M的英国生物样本库缺乏足够多元的种族与民族数据,难以支撑深度训练与性能分析。尽管研究团队通过部分分析显示种族因素未显著影响结果,但多数类别数据仍不足。若投入实际应用,个人医疗数据将叠加于基础模型之上,虽能提升准确率,却带来数据安全与跨场景滥用风险。
其次,模型可能难以适配医疗体系差异显著的国家。例如在美国多系统分散的医疗数据环境下,Delphi-2M的应用将面临挑战。目前该模型尚不适合患者或医生直接使用——它基于训练数据提供泛化预测,但距离为个体患者制定个性化健康建议仍为时过早。随着对Delphi-2M类模型的持续研发,未来或将实现输入个人健康数据生成定制化预测的愿景。
【全文结束】
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。