在数据有限环境下评估TabPFN对轻度认知障碍向阿尔茨海默病转化的预测能力 - 认知障碍

摘要

准确预测轻度认知障碍(MCI)向阿尔茨海默病(AD)的转化对早期干预至关重要，然而，由于纵向数据有限，开发可靠的转化预测模型十分困难。我们使用源自阿尔茨海默病神经影像计划(ADNI)的TADPOLE数据集，评估了TabPFN(表格预训练基础网络)与传统机器学习方法在预测3年内MCI向AD转化方面的表现。我们利用从人口统计学、APOE4基因型、MRI体积、脑脊液(CSF)标志物和PET成像中提取的多模态生物标志物特征，在不同训练集规模(N=50至1000)和包括XGBoost、随机森林、LightGBM以及逻辑回归的模型间进行了实验比较。TabPFN取得了最高的性能之一(AUC=0.892)，优于LightGBM(AUC=0.860)，并在数据量有限的环境中展现出优势。在仅有50个训练样本的情况下，TabPFN仍保持了较强的AUC性能，而传统机器学习模型在小规模训练样本上表现不佳。这些发现表明，基础模型在数据有限的场景下（如阿尔茨海默病预测）具有疾病预测的潜力。

1 引言

预计到2060年，美国患有阿尔茨海默病(AD)的人数将达到1380万，这突显了对改进早期检测和干预策略的迫切需求。机器学习模型在预测疾病进展方面显示出潜力，但其开发面临一个基本挑战：高质量训练数据有限。诸如OASIS和ADNI之类的阿尔茨海默病数据集存在类别不平衡、缺失的纵向测量值和不完整的患者病史等问题——这些限制显著减少了可用的训练样本。对于AD等缓慢进展的疾病而言，这一限制尤为突出，因为收集具有完整神经影像和生物标志物谱的足够纵向观察需要数年甚至数十年。

用于表格医疗数据的传统机器学习方法，如梯度提升方法(XGBoost、LightGBM)，通常需要数百个训练样本来达到临床可接受的准确性。在医疗研究中，每个标记样本都涉及昂贵的神经影像采集、生物标志物收集和纵向随访，这种数据需求造成了显著的部署障碍。此外，大量的超参数调优和模型开发增加了资源需求，可能需要临床环境中可能不具备的机器学习专业知识。

在大规模/合成数据集上预训练的基础模型提供了一种潜在解决方案。TabPFN是一种基于Transformer的模型，它在数百万个合成表格分类任务上进行了预训练，无需针对特定任务进行微调即可执行零样本学习。与从头开始学习的传统模型不同，TabPFN通过上下文内学习利用预训练知识，有可能仅用最少的训练样本就实现强大的性能。虽然TabPFN在标准基准测试中表现出了潜力，但其在具有现实约束（如缺失值、时间依赖性和数据泄露风险）的医疗预测任务中的有效性尚未得到充分探索。

本研究调查了预训练基础模型在训练数据严重受限时是否能够达到或超过传统机器学习的性能。

2 材料与实验

2.1 数据集与预处理

我们使用了源自阿尔茨海默病神经影像计划(ADNI)的TADPOLE数据集，这是一个包含1737名参与者的全面纵向研究，收集了临床、影像和生物标志物数据。该数据集包括最多10年的多次访问观察，每次时间点都测量了结构MRI体积、脑脊液(CSF)生物标志物、PET成像、认知评估和人口统计学信息。我们的研究重点是预测轻度认知障碍(MCI)在3年窗口期内向阿尔茨海默病(AD)的转化。对于每位受试者，我们将首次被诊断为MCI的访问确定为基线时间点，排除在此基线访问时或之前已被诊断为AD的任何患者。如果患者在基线后3年内的任何访问中被诊断为AD，则被标记为转化者。如果患者在窗口期后至少有一次观察确认为非AD状态（仍为MCI或恢复为认知正常），则被标记为稳定者。如果患者在窗口期后缺乏AD诊断，则被排除。

为避免标签泄露和人为提高性能，我们从特征集中排除了MMSE、CDRSB、ADAS-Cog和FAQ等认知测试分数，因为这些测量与MCI和AD的诊断标准密切相关。我们的最终特征集仅包含生物标志物，包括人口统计学、MRI体积测量、CSF生物标志物和PET成像。所有预处理步骤在整个模型中保持一致，以确保公平比较。诸如性别等分类变量经过标签编码，编码器在训练数据上拟合并应用于测试数据，以防止信息泄露。缺失值使用基于训练集统计的中值插补进行填充。所有特征均使用训练集均值和标准差进行z分数归一化。

2.2 模型配置

我们评估了五种模型，涵盖传统机器学习方法和基础模型方法。逻辑回归作为线性基线，配置为最大1000次迭代以实现收敛。随机森林配置为200棵树和最大深度10，以平衡模型复杂性与泛化能力。LightGBM和XGBoost这两种梯度提升框架均配置为200个估计器、最大深度6和学习率0.05。我们还使用Optuna评估了经过调优的XGBoost模型，进行50次试验和Tree-structured Parzen Estimator采样器，优化估计器数量、最大深度(3-10)、学习率、子采样比例、列采样比例以及L1/L2正则化参数。

TabPFN是我们主要关注的模型，它是一种基于Transformer的基础模型，通过在数百万个合成数据集上预训练，对表格数据执行上下文内学习。与传统模型不同，TabPFN通过将训练集视为上下文，并在单次前向传递中对测试样本进行预测来执行推理。我们使用公开可用的TabPFN分类器，采用默认参数。由于架构限制，TabPFN仅限于最多1000个训练样本和100个特征的数据集（对于本数据集，我们远低于这些限制）。

2.3 实验设计

我们进行了三项实验来评估MCI向AD转化预测的模型性能。第一项实验通过比较50、100、200、500和1000名患者的训练集规模，评估了数据效率。对于每个样本量，我们执行10次带分层抽样的自举迭代，在抽样子集上训练每个模型，并在剩余的保留数据上进行评估。第二项实验使用保留验证评估了整体模型性能，基于模型区分将转化为AD的MCI患者与保持稳定的患者的能力进行比较。我们报告受试者工作特征曲线下面积(AUC)作为主要指标，因为它与阈值无关且对类别不平衡具有鲁棒性。我们还报告了平衡分类准确率(BCA)，定义为敏感性和特异性的算术平均值，以在标准0.5决策阈值下评估分类性能。

第三项实验研究了决策阈值与分类性能之间的关系。初步结果显示，TabPFN获得了最高的AUC，但BCA最低，促使我们进行进一步分析。我们评估了每个模型从0.05到0.95、以0.01为增量的阈值范围内的BCA，以确定最佳决策边界。所有实验均使用固定随机种子以确保可重复性。

3 结果与讨论

图1展示了所有模型在保留验证集上的整体性能。XGBoost获得了最高的AUC分数0.901，TabPFN紧随其后，为0.892。随机森林达到了0.888，而LightGBM和逻辑回归的表现分别为0.860和0.859。这些结果表明，经过调优的梯度提升和基础模型方法都能很好地预测MCI向AD的转化。

然而，通过平衡准确率衡量的分类性能显示了不同的排名。逻辑回归获得了最高的BCA 0.810，XGBoost紧随其后，为0.795。LightGBM和随机森林配置分别达到了0.728和0.690。尽管TabPFN的AUC表现强劲，但其BCA最低，为0.684。TabPFN在AUC和BCA之间的这种差异促使我们进行了进一步的阈值分析。

图2展示了基于不同训练样本规模的模型性能。在最小的训练规模N=50时，TabPFN获得了最高的AUC 0.796，优于XGBoost的0.765、逻辑回归的0.777和LightGBM的0.713。尽管有限，8.3个百分点的差异表明TabPFN能够从有限的训练数据中提取预测信号。随着训练规模的增加，TabPFN与传统模型之间的性能差距缩小。在N=500时，所有模型的AUC值趋于相似，范围在0.836至0.861之间，TabPFN为0.861，LightGBM为0.836。

基于样本规模的BCA结果揭示了一个一致的模式：无论训练规模如何，TabPFN的平衡准确率都落后于其他模型。在N=50时，逻辑回归获得了最高的BCA。这种差距在所有样本规模中持续存在，尽管TabPFN的AUC表现强劲，但在BCA方面始终排名较低。TabPFN持续存在的高AUC和低BCA差异促使我们研究其概率分布。

我们评估了所有模型从0.05到0.95的决策阈值范围内的BCA。TabPFN的最佳阈值为0.14，远低于标准的0.5。在此优化阈值下，TabPFN的BCA从0.68提高到0.82，如图3所示。

我们的结果表明，TabPFN这种用于表格数据的基础模型，在预测MCI向AD转化方面实现了有竞争力的性能，在数据有限的情况下具有特别优势。在50-100名患者的训练规模下，TabPFN在每个训练规模上都优于几乎所有传统机器学习方法。这一发现对无法获得大型训练队列的场景具有直接的临床相关性，例如早期阶段的临床试验、新成立的记忆诊所或罕见阿尔茨海默病亚型研究。

在较大样本规模下模型性能的趋同符合理论预期。众所周知，传统梯度提升方法在有足够训练数据的情况下非常有效，我们的结果证实，当数据可用性不是限制因素时，经过超参数调优的XGBoost能够实现强大的性能。实际意义在于，基础模型在数据稀缺的情况下提供了最大的优势——这正是它们最需要的地方。

我们的阈值分析揭示了在临床环境中部署基础模型的一个重要考虑因素。TabPFN的预测概率并不像传统校准模型的输出那样直接对应转化风险。0.14的最佳决策阈值表明，TabPFN对其预测表现出相对较低的置信度，即使对于高风险患者，大多数输出也低于0.5。这种行为可能反映了该模型在具有不同类别分布的多样化合成数据集上的预训练，导致概率输出需要特定任务的校准。从临床工作流程的角度来看，TabPFN较低的0.14最佳阈值意味着一种更敏感的筛查方法，即使模型分配了适度的概率分数，也会将患者标记为有转化风险。这种行为与MCI向AD预测的临床背景非常吻合，在这种背景下，漏诊真正的转化者的代价通常高于对假阳性进行额外监测的代价。在实践中，使用TabPFN的临床医生会识别出更大范围的有风险患者进行更密切的随访，而模型的强排序能力确保了真正的转化者在此池中得到优先考虑。关键见解是，TabPFN的原始概率输出应被解释为相对风险评分，而不是绝对转化概率，部署时需要通过对代表性患者队列的验证来建立适当的决策边界。

4 结论

本研究对TabPFN（一种用于表格数据的基础模型）进行了系统评估，使用TADPOLE数据集中的生物标志物特征预测MCI向AD的转化。我们的结果表明，基础模型在数据有限的临床场景中提供了有意义的优势，同时也揭示了其部署的重要实际考虑因素。TabPFN在小训练规模下表现出高性能，在训练数据限制在50-100名患者时优于XGBoost和其他传统方法。这种数据效率优势解决了临床AI开发中的一个基本瓶颈，在此过程中，获取具有完整神经影像和生物标志物谱的纵向数据需要多年的患者随访和大量资源。在较大样本规模下，模型性能趋于一致，证实基础模型在数据稀缺的设置（如早期阶段试验、新成立的诊所和罕见疾病亚型）中提供了最大的益处。这项工作的关键贡献是确定了基础模型部署所需的阈值优化。尽管AUC表现强劲，但TabPFN在标准0.5决策阈值下表现出较差的平衡分类准确率，这是由于系统性较低的概率输出所致。这一发现对临床部署具有直接影响。实践者不应假设基础模型的概率输出可以直接解释为风险估计，而无需在代表性保留数据上进行验证和阈值调优。

有几个局限性值得考虑。我们的评估仅使用了单一数据集，泛化到其他阿尔茨海默病队列需要进一步验证。尽管从方法学角度排除认知测试分数是适当的，以避免诊断重叠，但这可能会限制与包含这些特征的研究进行比较。此外，最佳阈值是特定于队列的，需要针对不同的临床人群重新校准。未来的研究方向包括在不同的医疗领域进行验证，以确定TabPFN的样本效率优势是否能推广到阿尔茨海默病预测之外。研究为什么基础模型在临床数据上产生系统性保守的概率估计——以及架构修改或预训练策略是否能解决这一问题——代表了提高临床适用性的重要途径。开发混合方法，利用基础模型进行初步风险分层，同时使用传统方法或临床专业知识进行细化评估，可能会结合两种范式的优点。

我们的研究结果表明，基础模型是数据有限场景下临床预测的实用工具，前提是执行适当的阈值校准。未来的道路在于将这些模型深思熟虑地整合到临床AI工作流程中——不是作为传统方法的直接替代品，而是作为一种互补方法，在数据稀缺历来限制模型开发的地方表现出色。对于无法获得大型训练队列的场景，基础模型为更早部署临床决策支持工具提供了可行的途径。

图1：MCI向AD转化预测：完整模型比较

图2：不同样本规模下的AUC和BCA分数

图3：阈值优化结果

【全文结束】