威斯康星大学麦迪逊分校的研究人员警告,人工智能工具在遗传学和医学领域的应用可能导致关于基因与身体特征之间联系的错误结论,包括糖尿病等疾病的风险因素。这些错误预测与研究人员使用人工智能辅助全基因组关联研究有关。此类研究会扫描成千上万的人群中的数万个基因变异,以寻找基因与身体特征之间的联系。特别关注的是基因变异与某些疾病之间的可能联系。
基因与疾病的关系并非总是简单直接
基因在许多健康状况的发展中起着重要作用。虽然某些个别基因的变化直接与囊性纤维化等疾病的高风险相关,但基因与身体特征之间的关系通常更为复杂。全基因组关联研究有助于解开这些复杂性,通常使用大量个体的基因档案和健康特征数据库,如美国国立卫生研究院的“我们所有人”项目和英国生物银行。然而,这些数据库往往缺少研究人员试图研究的健康状况数据。
“有些特征要么非常昂贵,要么费力测量,因此你根本没有足够的样本量来得出有意义的统计结论,”威斯康星大学麦迪逊分校生物统计学和医学信息学副教授、全基因组关联研究专家吕琼石说。
用AI填补数据空白的风险
研究人员越来越多地尝试通过使用越来越复杂的人工智能工具来解决这个问题。“近年来,利用机器学习的进步变得非常流行,因此我们现在有这些先进的机器学习模型,研究人员可以用有限的数据预测复杂的特征和疾病风险,”吕琼石说。
现在,吕琼石和他的同事展示了依赖这些模型而不防范其可能引入的偏见所带来的危险。他们在最近发表在《自然遗传学》杂志的一篇论文中描述了这一问题。在这篇论文中,吕琼石和他的同事展示了在全基因组关联研究中常用的一种机器学习算法可能会错误地将多个基因变异与个体患2型糖尿病的风险联系起来。
“问题在于,如果你相信机器学习预测的糖尿病风险就是实际风险,你会认为所有这些基因变异都与实际糖尿病相关,即使它们并不相关,”吕琼石说。他补充道,这些“假阳性”不仅限于这些特定的变异和糖尿病风险,而是AI辅助研究中的普遍偏见。
新的统计方法可以减少假阳性
除了识别过度依赖AI工具的问题,吕琼石和他的同事还提出了一种研究人员可以使用的统计方法,以保证其AI辅助全基因组关联研究的可靠性。该方法有助于消除机器学习算法在基于不完整信息进行推理时可能引入的偏见。“这种新策略在统计上是最优的,”吕琼石说,团队使用该方法更好地确定了基因与个体骨密度之间的关联。
全基因组关联研究中的其他问题
虽然该小组提出的统计方法可以帮助提高AI辅助研究的准确性,但吕琼石和他的同事最近还发现了类似研究中使用代理信息填补数据空白的问题。在另一篇最近发表在《自然遗传学》杂志的论文中,研究人员对过度依赖代理信息以建立基因与某些疾病之间联系的研究发出了警告。
例如,像英国生物银行这样的大型健康数据库拥有大量人口的基因信息,但关于晚年发病的疾病(如大多数神经退行性疾病)的发病率数据却很少。对于阿尔茨海默病,一些研究人员试图通过家庭健康史调查收集的代理数据来填补这一空白,个人可以报告父母的阿尔茨海默病诊断。威斯康星大学麦迪逊分校的研究团队发现,这种代理信息研究可以产生“高度误导性的基因相关性”,将阿尔茨海默病风险与更高的认知能力联系起来。
“如今,基因组科学家经常处理包含数十万个体的生物银行数据集,但随着统计能力的提高,这些大规模数据集中偏差和错误的概率也被放大,”吕琼石说。“我们小组的最新研究提供了令人谦卑的例子,突显了生物银行规模研究中统计严谨性的重要性。”
(全文结束)


