机器学习(ML)工具是人工智能(AI)的一个子集,利用数学模型来识别输入和输出之间的模式,并经常基于新输入进行预测。为了提高其预测能力,这些模型会被提供训练数据,这些数据用于调整模型。
然而,训练数据集中的问题,包括偏差,可能会出现在模型的预测中。此外,尽管基于ML的工具可以极大地扩展科学家分析复杂数据的能力,但计算机如何得出其预测的实际过程通常是一个未解释的“黑箱”。
虽然ML工具已经在金融、物流和营销等领域产生了显著影响,但在科学研究——尤其是生物学领域的潜力尤为令人兴奋。这些工具已经改变了生物学家处理数据、设计实验和理解复杂系统的方式,为重大发现铺平了道路。但AI也带来了自身的挑战。
机器学习开启生物学研究的新大门
鉴于我们面临的全球问题的广泛性,包括公共卫生危机和气候变化,加快和提高科学研究的速度和效率至关重要。诺贝尔图灵挑战赛的组织者之一罗斯·金教授认为,要解决这些问题,“唯一的希望是更好的技术,而AI可以帮助实现这一点。”
在生物学领域,更好的ML技术已经产生了明显的影响。
某些基因编辑技术需要短DNA片段来帮助找到正确的靶点,而PCR(一种复制DNA片段的技术)使用短DNA引物来定义要复制的区域。对于这两种应用,ML工具可以利用DNA序列和实验系统的特征来预测特定DNA序列的表现。ML工具还可以预测不同DNA切割蛋白的效果,以及其他蛋白是否会干扰DNA切割。
此外,ML可用于分析手动分析过于繁琐的大型数据集。今年5月,一个研究团队使用ML工具开发了一个重建的人脑段落,这是神经科学的一项巨大成就。该项目涉及约140万GB的成像数据(相当于数千部智能手机的内存),使研究人员能够了解大脑中的亚结构和细胞间的相互作用。该团队随后发布了一个免费的在线工具,供其他人分析数据以进一步推动神经科学的发展。
ML还被用于进化遗传学,帮助科学家了解不同人群在过去可能如何杂交、迁徙和面对选择压力,从而成为我们今天看到的人群。
当然,还有蛋白质折叠。
获得诺贝尔奖的AI
__两个自由建模类别的蛋白质目标示例。AlphaFold 预测的结构与实验结果高度一致。图片来源:DeepMind。
近年来引起广泛关注的另一个重要ML工具是AlphaFold。这个由DeepMind开发的算法使用构成蛋白质的构建块序列来预测蛋白质如何折叠。蛋白质折叠对生物研究至关重要,因为蛋白质的三维结构决定了其在细胞中的功能。蛋白质的形状影响它能与哪些分子相互作用、如何催化反应以及如何调节细胞过程。
错误折叠的蛋白质与许多疾病相关,包括阿尔茨海默病和帕金森病。通过准确预测蛋白质结构,AlphaFold使研究人员能够更快、更高效地理解这些功能。AlphaFold的结构预测远比传统方法更好、更快,有可能加速医学、药物设计和基础生物学的发现。
最新版本的AlphaFold3增加了预测蛋白质与其他分子相互作用结构的能力。然而,当前发布的版本要求研究人员使用DeepMind(创建AlphaFold的公司)的网络服务器,而无法访问程序的底层代码,这引发了研究社区的反对。5月,该团队宣布计划在六个月内向学术界提供代码,这一承诺已兑现。即使在开放发布之前,其他科学家已经开始着手开发自己的AlphaFold3开源复制品。
AlphaFold 对计算生物学产生的深远影响已获得2024年诺贝尔化学奖的认可。谷歌DeepMind的Demis Hassabis和John Jumper获得了该奖项的一半,而我们目前仅看到了AlphaFold潜力的冰山一角。
然而,AI与生物学的结合并非一帆风顺。
依赖机器学习工具的风险
在某些情况下,例如AlphaFold2,预测结果并不总是与基于实验数据的接受模型相符,这意味着科学家需要通过后续的手动实验来验证结果。
此外,包括认知科学家Dr. M. J. Crockett在内的专家担心,不加选择地使用AI会威胁到真正理解自然世界这一科学的核心目标。过度依赖AI的预测能力会使科学家产生对现象的“为什么”和“如何”的虚假理解,掩盖实际机制。当生物学家在不了解ML工具工作原理的情况下使用这些工具时,他们可能会无意中忽略这些工具的局限性,导致误解。例如,AI模型可能会过度拟合数据或对输入的小变化敏感,产生看似准确但实际上误导的结果。在医学等领域,这种错误结论可能会影响治疗或诊断。
训练数据中的偏差也构成了另一个重大风险。尽管促进科学多样性和包容性的努力日益增加,但现有数据仍反映了历史偏差。例如,大规模基因组数据集主要由欧洲血统个体的样本组成。因此,基于此类数据集训练的AI可能生成对欧洲人更准确但对其他人群不太可靠的预测。这种不平衡会加剧健康差异,限制AI驱动发现的好处仅限于狭窄的人群。
多样性不仅在训练数据中重要。不同类型的研究问题与不同社区相关,AI的吸引力可能会使科学家偏向追求可以使用AI的途径,而避免那些不能使用的途径。同样,Dr. Crockett指出,“对AI产品取代人类研究人员的担忧在于,我们在[……]多样化知识池方面取得的进步可能会倒退”,这会限制研究的范围和影响。
其他实际问题包括创建、训练和使用AI系统的巨大碳足迹(例如,训练蛋白质折叠预测程序ESMFold的一个版本产生了超过100吨二氧化碳)以及失去非AI实验技术的技术知识。Dr. Crockett指出,尽管AI给了我们“闪亮的新玩具”,“我们也需要保留传递给下一代科学家的方法的多样性。”
生物学中机器学习的政策考虑
随着AI的广泛应用,对其监管的呼声也随之而来。近年来,世界各国已进入制定和执行AI相关政策的不同阶段。最近在9月,联合国发布了一份报告,强调了全球AI监管的必要性和当前政策监管的空白。
特别是在生物学研究中使用AI方面,美国国会研究服务处于2023年11月发布了一份报告,讨论了在AI工具和进步背景下,生物安全、生物安保和基因序列信息的政策考虑。食品药品管理局生物制品评估和研究中心也参与了国内和国际关于AI/ML在医疗和制药行业应用的讨论。
然而,广泛采用和执行协议仍在进行中,各国最终将选择何种监管政策(如果有)尚不清楚。
随着AI和机器学习继续重塑生物学研究,科学界面临着激动人心的机遇和重大挑战。这些工具可以彻底改变我们分析数据、设计实验和做出发现的方式——但它们不能替代人类的洞察力、好奇心和伦理判断。它们也不是消除我们偏见的灵丹妙药;相反,它们可能会加剧偏见和不平等。
虽然AI无疑将继续成为生物学研究的一部分,但这并不意味着应该放弃以人类为主导的科学。通过潜在的法规以及科学家对负责任地使用AI的承诺(如《斯德哥尔摩宣言》中关于科学和社区价值观、负责任开发AI用于蛋白质设计的指导原则和承诺),这些工具可以在人类落后于机器的领域弥补不足,同时让人类负责思考。
这些健康的方法是否会被实施,目前还远未确定。最终,科学的未来在于将AI用作放大人类创造力的工具,而不是捷径,保持严格的科学标准,开辟新的发现领域——同时控制AI的“黑箱”。正如罗斯·金教授恰当地指出的那样,“我不认为未来的科学会是问一个黑箱会发生什么。……我希望科学是明确的。”
(全文结束)


