美国科学家团队开发了一种新的基础模型,该模型可以在生物学的五个界中筛选遗传代码,从而提供关于致病突变和基因组设计的见解。该模型被称为Evo 2,由位于加利福尼亚州帕洛阿尔托的Arc研究所和技术巨头NVIDIA联合开发,它将在生命科学研究领域发挥重要作用。
Evo 2模型基于超过100,000个物种的DNA进行训练,涵盖了所有已知生物之间的进化关系。该模型将公开发布,以帮助推进生命科学领域的发展。Evo 2的前身Evo 1是一个在单细胞基因组上训练的模型,于2024年11月在《科学》杂志上首次亮相。NVIDIA和Arc研究所表示,Evo 2是目前公开可用的最大生物学AI模型,已经接受了超过9.3万亿个核苷酸的数据训练,使该基础模型能够深入洞察基因组。
Evo 2的训练数据来自人类、植物和细菌,因此它可以揭示有机体基因组中遥远部分之间的联系,如细胞功能、基因表达和疾病。Arc研究所的共同创始人Patrick Hsu表示:“Evo 1和Evo 2的开发代表了生成生物学这一新兴领域的一个关键时刻,因为这些模型使机器能够读取、编写和用核苷酸的语言进行思考。”
研究人员希望Evo 2的应用范围将非常广泛。他们强调了该模型识别可能导致蛋白质功能障碍的遗传变化的能力。在对BRCA1基因(其变异与乳腺癌有关)的测试中,Evo 2能够以90%的准确性预测哪些突变是有害的。
计算生物学家Hani Goodarzi也参与了该模型的开发,他表示Evo 2可以应用于药物发现。“如果你有一种基因疗法,希望只在神经元中激活以避免副作用,或只在肝细胞中激活,你可以设计一种仅在这些特定细胞中可访问的遗传元素。这种精确控制可以帮助开发更针对性的治疗方案,减少副作用。”Goodarzi解释道。
越来越多的制药公司正在利用主要由AI设计的管线。事实上,AI在药物发现方面的潜力得到了科学界的认可,2024年的诺贝尔化学奖授予了DeepMind团队,因为他们开发的AlphaFold系统能够准确预测蛋白质结构。
尽管AI在加速和优化创新药物开发方面具有明显优势,但专家们指出,找到能够捕捉生物学全部复杂性的大型数据集仍然具有挑战性。
(全文结束)


