威斯康星大学麦迪逊分校遗传生物技术中心的研究人员于9月30日在《自然遗传学》杂志上发表了一项研究,对在基因组关联研究中使用人工智能工具时发现的持续性问题表示担忧,并提出了新的统计方法以改进这些方法。
基因组关联研究广泛寻找基因变异与健康特征之间的联系。这一过程需要大量遗传和健康相关数据,这些数据来自生物银行,后者负责收集和存储生物数据。基于这些数据集中的关联,科学家可以预测具有某些遗传特征的人的未来健康风险。但尝试预测某些健康风险具有挑战性。
“一些结果非常容易测量。如果你想要研究身高的遗传学,测量每个人的身高和DNA并找出关联相对简单。但如果你想研究阿尔茨海默病,就会变得复杂。”卢琼石教授说。
收集和研究像阿尔茨海默病这样的疾病特征在大规模数据集中非常困难,因为数据集中缺乏足够的病例。这主要是因为收集这种类型的数据极其耗费资源。没有足够的数据,研究人员就没有足够的统计能力来做出健康风险预测。
因此,近年来利用AI工具变得流行,这些工具可以根据代理数据推断未知特征。这使得科学家可以绕过缺失数据的问题,为那些未实际观察到特定特征的个体分配特征。但卢琼石表示,这些推断没有考虑到自身的不确定性。
威斯康星大学麦迪逊分校生物医学数据科学项目博士生苗嘉诚是该研究的共同作者,他在接受《每日卡迪纳尔报》采访时说:“许多科学家认为AI产生的结果是金标准,但我们表明这是一个相当糟糕的想法。”
“例如,我们有个人的医院记录糖尿病状态。我们创建了一个AI预测的糖尿病状态进行比较,发现结果有很大差异。”他说。
进一步的比较揭示了AI生成特征中的持续性缺陷。针对这些发现,卢琼石团队开发了一种新的统计框架,以提高AI推断的质量。尽管这些结果在基因组研究领域得到了良好的反响,但由于卢琼石和他的同事们是最早在这个讨论中取得进展的人之一,这些方法尚未被广泛采用。
影响
基因组研究的结果常用于开发治疗药物。然而,如果没有正确的统计框架,这些药物可能会基于受污染的数据开发。虽然基于虚假数据开发的药物可能无法通过测试阶段,但卢琼石表示,开发这些无效治疗是一个巨大的资源浪费。
“你可能会花费10年时间专注于一种治疗干预策略,最终却发现它是错误的。”卢琼石说,“我们需要前沿的方法来防止虚假发现,以便真正高效地推进医学科学领域的发展。”
(全文结束)


