岩洛克实验室发布超大规模开放蛋白稳定性数据集以推进生物分子人工智能
在OpenFold联盟支持下,MGnify稳定性数据集提供了180万个多样化蛋白质结构域的折叠稳定性测量数据,包含训练更优开放基础模型所需的关键负向数据。
加利福尼亚州伯克利市——(美国商业资讯)——西北大学岩洛克(Rocklin)实验室今日宣布发布MGnify稳定性数据集,这一大规模实验资源包含180万个多样化蛋白质结构域的折叠稳定性测量数据。该发布在岩洛克实验室早期超大规模稳定性研究基础上,进一步扩展了实验测量蛋白质结构域的规模与多样性。该数据集采用cDNA展示蛋白水解技术生成,现面向科研社区开放,旨在加速蛋白质稳定性预测改进模型的开发。此项工作部分获得OpenFold联盟支持,该联盟资助岩洛克实验室以推进其发展开放生物分子人工智能的使命。
蛋白质折叠稳定性是生物学和蛋白质工程中的基础特性,影响蛋白质能否正确折叠、保持功能、避免聚集,以及能否成功应用于治疗和生物技术领域。尽管其重要性显著,但由于折叠过程的复杂性以及实验测量数据的有限性,准确预测绝对稳定性——即衡量蛋白质序列采用并维持其折叠状态的能量有利程度——始终是长期挑战。重要的是,该数据集同时包含稳定与不稳定的蛋白质,提供了公共生物数据集中常缺失的关键负向数据。对于机器学习而言,这些失败案例并非噪声,而是学习可折叠序列与不可折叠序列边界所必需的训练信号。
本研究由西北大学芬伯格医学院药理学系和合成生物学中心助理教授、OpenFold首席研究员加布里埃尔·岩洛克(Gabriel Rocklin)以及麻省理工学院生物学助理教授谢尔盖·奥夫钦尼科夫(Sergey Ovchinnikov)共同领导。岩洛克实验室致力于开发高通量实验和计算方法,以理解蛋白质折叠、稳定性和设计,重点生成训练更精准机器学习模型所需的大规模生物物理数据集。
在岩洛克教授指导下,共同首席研究员坪山航太郎(Kotaro Tsuboyama,现为东京大学工业科学研究所讲师)通过实验分析180万个多样化蛋白质结构域创建了MGnify稳定性数据集。这些结构域主要取自MGnify宏基因组数据库,涵盖超20万个序列家族,使折叠稳定性数据的多样性实现巨大提升。共同首席研究员车耶林(Yehlin Cho)应用这些数据开发了预测模型SaProtΔG和ESM3ΔG。与多数仅限预测突变效应的稳定性模型不同,这些模型能准确预测大多数小型蛋白质结构域的稳定性,展示了大规模多样化折叠稳定性数据如何显著改善蛋白质折叠稳定性预测这一长期挑战。
"将计算蛋白质建模的进展与这一新型海量生物物理数据集相结合以准确预测稳定性,令人无比振奋,"该研究共同通讯作者加布里埃尔·岩洛克表示,"若无这些实验数据的巨大规模和多样性,我们不可能实现这一突破。同时,近期蛋白质深度学习模型的进步使我们得以最佳利用这些数据进行精准预测。"
为验证该数据集是否能支持有效预测模型,研究人员在多个实际应用场景中对SaProtΔG和ESM3ΔG进行了基准测试。这些模型成功预测了替代、插入和缺失的影响;重现了与嗜热生物相关的稳定性趋势;改善了对计算设计蛋白质中稳定与不稳定蛋白质的区分能力;并在未经纳米抗体数据训练的情况下,与纳米抗体聚集温度呈现相关性。
作者指出,该数据集和模型仍有改进空间。MGnify稳定性数据集目前仅限60-80个氨基酸长度的结构域,且实验测得的稳定性分辨率约为5千卡/摩尔。需要更多实验数据和新方法来提升对更大、更稳定蛋白质的预测性能。
此类数据集对OpenFold路线图至关重要,因为开放基础模型需要开放、高质量的实验数据。仅靠结构预测不足以支撑下一代生物分子人工智能。模型还必须学习稳定性、折叠、聚集风险和可设计性等生物物理特性。通过支持岩洛克实验室等实验团队,OpenFold旨在构建更可预测、可重复且广泛可及的生物学和药物发现人工智能所需的开放数据层。
"这正是该领域构建更优生物分子人工智能所需的数据集类型,"PsiThera首席创新官、OpenFold执行委员会主席伍迪·谢尔曼(Woody Sherman)表示,"包含负向数据的大规模精心生成实验数据集,对于超越仅推断结构的模型、迈向理解使蛋白质折叠、发挥功能并用于生物学和药物发现的生物物理特性的模型至关重要。OpenFold很荣幸支持岩洛克实验室并帮助向社区提供这一资源。"
关于OpenFold
OpenFold是由学术界和产业界合作伙伴组成的非营利人工智能研究联盟,旨在为生物学和药物发现开发免费开源软件工具,作为开放分子软件基金会(Open Molecular Software Foundation, OMSF)的项目运营。其成员涵盖生物技术、制药、合成生物学、软件/技术、学术界和非营利研究组织。
如需更多信息,请访问OpenFold官网。
数据集获取
如需访问数据集和论文,请访问MGnify稳定性数据集页面。
【全文结束】

