弗吉尼亚理工大学计算机科学家开发出新型AI工具ProRNA3D-single,可生成病毒RNA与人类蛋白质结合的3D模型——这一突破有望加速药物研发进程。
可视化人体内的疾病过程是帮助患者的首要步骤,但同时也是最困难且成本最高的环节。然而,弗吉尼亚理工大学计算机科学家在《细胞系统》期刊发表的人工智能突破性成果,正聚焦于这些模糊不清的生物过程。
新型ProRNA3D-single工具提供了更精准的预测与可视化方法,揭示病毒和神经系统疾病攻击人体时的内部机制——为预防和治疗开辟新路径。
"最终目标是加速药物发现进程,阻止RNA病毒与宿主蛋白相互作用,从而在疫情爆发前阻断感染,或抑制阿尔茨海默病中RNA结合蛋白功能异常,"弗吉尼亚理工大学计算机科学副教授德布斯瓦帕纳·巴塔查里亚表示。
生物学中的双语ChatGPT
多年来,科学家一直难以理解病毒核糖核酸(RNA)如何与人类蛋白质结合形成复杂3D分子结构。这至关重要,因为此类结构决定SARS-CoV-2等病原体能否传播,或阿尔茨海默病等疾病是否会发展。
AI系统通过创建代表DNA、RNA和蛋白质的"字母表",使研究人员能够训练生物序列大语言模型(LLMs),进而分析和模拟这些分子在人体内的相互作用。但ProRNA3D-single超越了字母表概念,它利用AI生成这些分子的精细3D图像。
"生物大语言模型本质上类似于ChatGPT,但专用于生物序列。如同ChatGPT,我们可以向模型提问并获取答案,"巴塔查里亚解释道。
弗吉尼亚理工团队整合了两个现有生物大语言模型——分别针对蛋白质和RNA序列——并创建第三个模型使这些LLMs能"对话"。通过这种交互,ProRNA3D-single可生成病毒RNA与人体蛋白质相互作用的3D结构模型。
"这本质上是两种不同大语言模型的神经配对,实现双语推理,"巴塔查里亚指出,"从计算机科学角度看,这本身就是一项贡献。"
尽管谷歌DeepMind等机构近期开发的AI模型在预测蛋白质-RNA复合物3D结构方面仍存在不足,迫使研究者依赖高成本试错实验,但新方法显著提升了预测准确度。
聚焦疾病机制
关于SARS-CoV-2等新病毒如何演化,或痴呆症如何在分子层面发展的认知仍十分有限。ProRNA3D-single有助于填补这些空白,生成更精确的生物内部图谱。
现在,药物研发者无需猜测即可分析病毒与人类蛋白质的结合位点,并设计阻断治疗方案——可能大幅缩短干预时间、降低成本,同时加速疫情响应。
"回想新冠疫情中发挥关键作用的mRNA疫苗——其原理正是RNA疗法,"该项目四年级博士生苏米特·塔拉夫德尔表示,"3D建模蛋白质-RNA相互作用至关重要,这使我们能精准定位药物作用的致病分子靶点。"
通过生成RNA-蛋白质互作新数据,ProRNA3D-single还为多种疾病的新疗法奠定基础。虽然弗吉尼亚理工团队以病毒为研究案例,"但该方法完全通用,不局限于特定病毒或病毒家族,"巴塔查里亚强调,"此方法适用于任何应用场景。"
开放科学,全球影响
在国立卫生研究院和国家科学基金会资助下,该项目体现了公益导向的科学研究。研究论文与工具本身均免费开放。
"我们无法过分强调投资科学以造福社会的重要性。我们认为开放性是让科学惠及大众的关键,"巴塔查里亚表示,"纳税人资助我们,我们有义务回馈社会,这正是我们将成果开源并公开的原因。"
弗吉尼亚理工团队计划持续优化该工具,提升准确度并提供更详细的生物过程模型。
"我们应时刻谨记问题远未解决,"巴塔查里亚总结道,"我们取得了进展,但深知这些模型仍有很长的路要走。"
【全文结束】