研究人员利用300万天Apple Watch数据训练疾病检测AI - AI与医疗健康

研究人员利用300万天Apple Watch数据训练疾病检测AIResearchers trained a health AI with 3M days of Apple Watch data - 9to5Mac

环球医讯 / AI与医疗健康来源：9to5mac.com美国 - 英语2025-12-28 03:35:07 - 阅读时长4分钟 - 1848字

麻省理工学院和经验健康公司研究人员利用300万人-天的Apple Watch数据开发了JETS基础模型，该模型采用联合嵌入预测架构处理不规则可穿戴设备时间序列数据，能够以高准确度预测多种医疗状况，包括高血压(86.8% AUROC)、心房扑动(70.5%)、慢性疲劳综合征(81%)和病态窦房结综合征(86.8%)，即使在数据不完整的情况下（部分健康指标仅记录0.4%时间）也能有效工作，展示了利用日常可穿戴设备数据进行疾病早期检测的巨大潜力，为医疗AI开辟了新路径。

麻省理工学院和经验健康(Empirical Health)的研究人员进行的一项新研究利用300万人-天的Apple Watch数据开发了一种基础模型，该模型能够以令人印象深刻的准确度预测医疗状况。

背景介绍

在杨立昆(Yann LeCun)仍担任元(Meta)首席AI科学家期间，他提出了联合嵌入预测架构(Joint-Embedding Predictive Architecture，简称JEPA)，该架构本质上教导AI推断缺失数据的意义，而非数据本身。

换句话说，当处理数据中的空白时，该模型学会预测缺失部分所"代表"的内容，而不是尝试猜测并重构其精确值。

例如，对于一幅部分被遮盖、部分可见的图像，JEPA会将可见和遮盖区域都嵌入到一个共享空间（因此称为"联合嵌入"），并让模型从可见上下文中推断遮盖区域的表示，而不是被隐藏的确切"内容"。

当该公司在2023年发布名为I-JEPA的模型时，元(Meta)是这样描述的：

去年，元(Meta)首席AI科学家杨立昆提出了一种新架构，旨在克服当今即使是最先进AI系统的某些关键限制。他的愿景是创造能够学习世界运作内部模型的机器，使它们能够更快地学习、规划如何完成复杂任务，并轻松适应不熟悉的情况。

自从杨立昆最初的JEPA研究发表以来，这种架构已成为探索"世界模型"(world models)领域的基础，这与大型语言模型(LLM)和基于GPT的系统的标记预测(token-prediction)焦点有所不同。

事实上，杨立昆最近甚至离开元(Meta)创办了一家完全专注于世界模型的公司，他认为这才是实现通用人工智能(AGI)的真正路径。

那么，300万天的Apple Watch数据？

是的，回到这项研究。题为《JETS：用于医疗保健中行为数据的自监督联合嵌入时间序列基础模型》(JETS: A Self-Supervised Joint Embedding Time Series Foundation Model for Behavioral Data in Healthcare)的论文几个月前发表，最近被神经信息处理系统大会(NeurIPS)的一个研讨会接受。

该研究将JEPA的联合嵌入方法应用于不规则的多元时间序列，例如长期可穿戴设备数据，其中心率、睡眠、活动和其他测量值随时间不一致出现或存在较大间隔。

研究报告指出：

该研究利用了一个纵向数据集，包含从16,522名个体收集的可穿戴设备数据，总计约300万人-天。对每个个体，记录了63个不同的时间序列指标，分辨率为每日或更低。这些指标分为五个生理和行为领域：心血管健康、呼吸健康、睡眠、身体活动和一般统计。

有趣的是，只有15%的参与者有标记的医疗历史用于评估，这意味着85%的数据在传统的监督学习方法中将无法使用。相反，JETS首先通过对完整数据集进行自监督预训练来学习，然后在标记子集上进行微调。

为了让整个系统运作，研究人员从对应于日期、数值和指标类型的数据中创建了数据三元组。

这使得他们能够将每个观察结果转换为一个标记(token)，然后经过掩码处理、编码，再通过预测器(用于预测缺失区块的嵌入)。

完成后，研究人员将JETS与其他基准模型(包括基于Transformer架构的JETS早期版本)进行比较，并使用AUROC(受试者工作特征曲线下面积)和AUPRC(精确率-召回率曲线下面积)进行评估，这两个是衡量AI如何区分阳性与阴性案例的标准指标。

JETS在高血压方面达到了86.8%的AUROC，在心房扑动方面达到70.5%，在慢性疲劳综合征方面达到81%，在病态窦房结综合征方面达到86.8%，等等。当然，它并不总是获胜，但优势相当明显。

值得强调的是，AUROC和AUPRC并非严格的"准确性"指标。它们是显示模型如何对可能案例进行排序或优先级排序的指标，而非预测正确的频率。

总的来说，这项研究提出了一种有趣的方法，可以最大化那些可能被视为不完整或不规则的数据的洞察力和拯救生命的潜力。在某些情况下，健康指标仅记录了0.4%的时间，而其他指标则出现在99%的每日读数中。

该研究还强化了一个观点：新型模型和训练技术在探索常规可穿戴设备（如Apple Watch）已经收集的数据方面具有巨大潜力，即使这些设备并非100%时间佩戴。

【全文结束】