AI突破可预测mRNA在体内合成蛋白质机制AI breakthrough predicts how mRNA makes proteins inside the body

环球医讯 / AI与医疗健康来源:www.yahoo.com美国 - 英语2025-09-15 04:56:53 - 阅读时长5分钟 - 2446字
德克萨斯大学奥斯汀分校与赛诺菲公司联合开发的AI模型RiboNN,通过深度学习分析3,819组核糖体分析数据,首次实现跨细胞类型预测mRNA翻译效率。该模型可显著提升mRNA药物和疫苗设计效率,其突破性在于综合考虑二核苷酸、三核苷酸及密码子排列对蛋白生产的影响,并揭示了不同细胞类型中mRNA翻译的共享生物语言,为癌症治疗、遗传病干预等精准医疗提供新工具。
AI模型RiboNNmRNA蛋白质合成翻译效率药物设计mRNA治疗癌症传染病遗传性疾病
AI突破可预测mRNA在体内合成蛋白质机制

在医学科学快速发展的领域,一项新的人工智能模型可能即将改变基于mRNA的药物和疫苗设计方式。这个由德克萨斯大学奥斯汀分校与制药公司赛诺菲合作开发的工具,可以帮助研究人员预测不同mRNA序列在体内产生蛋白质的效率。这种能力可能显著减少设计治疗方案时的试错成本,加速救命疗法的开发。

科学家们将这一工具命名为RiboNN。它使用人工智能来预测翻译效率——即细胞将mRNA链转化为蛋白质的能力。该工具基于一个深度学习系统,该系统整合了超过10,000项核糖体分析实验的数据。这些实验涵盖了140种不同的人类和小鼠细胞类型,生成了3,819个数据集,构成了迄今为止最详细的翻译效率图谱。

破解蛋白质生产的密码

细胞通过涉及DNA、mRNA和核糖体的过程来生成蛋白质。首先,制造蛋白质的指令会从DNA复制到信使RNA中。这些mRNA链随后进入核糖体——细胞的蛋白质工厂——在那里,这些指令被用来将氨基酸链组装成蛋白质。为了治疗目的,要高效地实现这一过程并非总是容易的。

mRNA序列的细微差异可以使核糖体产生更多或更少的特定蛋白质。一种名为RiboNN的新AI模型可以预测哪些序列将被最高效地生产,并可能对蛋白质治疗最有成效。(信用:iStock)

mRNA的序列会影响核糖体读取和翻译的效率。到目前为止,科学家们只有有限的工具来预测这种效率,许多研究主要依赖于mRNA的5'非翻译区(5' UTR)的特征。但蛋白质的生产受到许多序列特征的影响,包括密码子的排列方式以及核糖体如何与其序列互动。

RiboNN的与众不同之处在于,它不仅考虑了5' UTR,还考虑了整个序列中二核苷酸、三核苷酸和密码子的位置如何影响蛋白质生产。这意味着它可以预测mRNA特征的结构和排列如何影响细胞制造蛋白质的能力。

“细胞协调它们生成哪些mRNA以及它们如何高效地被翻译成蛋白质,”德克萨斯大学奥斯汀分校分子生物科学系副教授Can Cenik表示,他是该项目的领导者之一。“这就是好奇心驱动研究的价值所在。它为像RiboNN这样的进步奠定了基础,这些进步在很久之后才成为可能。”

从数据到发现

在构建AI模型之前,德克萨斯大学奥斯汀分校和赛诺菲的研究人员从公共科学实验中收集了数据。这些实验测量了细胞在体内将不同mRNA序列翻译成蛋白质的效率。

这项工作需要对准确性进行仔细的关注,并涉及德克萨斯大学奥斯汀分校的本科研究人员。他们审查了实验数据,并手动更正了缺失或错误的信息。这个经过清理和验证的数据集,命名为RiboBase,成为了训练RiboNN模型的基础。

开发该模型需要学术界和工业界研究人员多年的合作。主要贡献者包括德克萨斯大学奥斯汀分校的Can Cenik,以及赛诺菲的mRNA平台设计数据科学负责人Vikram Agarwal。其他贡献者还包括德克萨斯大学计算机科学系的研究生Logan Persyn,以及赛诺菲的研究人员Dinghai Zheng和Jun Wang。德克萨斯大学的“从发现到影响”办公室帮助学术界和工业界团队在正式研究协议下联合起来。

该模型的技术方面与生物方面一样令人印象深刻。RiboNN是一个多任务深度卷积神经网络。这种类型的AI通常用于计算机视觉和自然语言处理。它从mRNA序列中学习模式。该模型可以识别小序列特征如何影响整个蛋白质翻译过程。它还捕捉了核糖体进程性与tRNA丰度等生物学原理。

这些因素影响核糖体的移动和它们如何轻易地匹配氨基酸。该团队得到了美国国立卫生研究院和Welch基金会的支持。他们还使用了德克萨斯大学德州高级计算中心的Lonestar6超级计算机。利用这些资源,他们在前所未有的规模上训练和测试了RiboNN。

用于下一代医学的新工具

在试验中,RiboNN在预测翻译效率方面远超先前的模型——在预测许多不同细胞类型的翻译效率时,准确性往往达到前者的两倍。这种级别的精确度可能彻底改变mRNA治疗领域。它为更精确的药物设计打开大门,使科学家能够预测的不仅是细胞会生成多少蛋白质,还有哪些细胞会生成它。

“也许你需要一种下一代疗法在肝脏、肺部或免疫细胞中制造蛋白质,”Cenik解释道。“这为改变mRNA序列以增加那种细胞中该蛋白质的产量提供了机会。”

这种控制能力在治疗癌症、传染病或遗传性疾病时尤其有用——在这些情况下,针对正确的组织对于成功至关重要。研究人员不再仅仅依赖试错测试,而是可以使用RiboNN提前模拟潜在的疗法,在它们进入实验室之前就能识别出最有效的选项。

此外,RiboNN还可以用于研究常用于现实世界治疗中的碱基修饰治疗RNA。这些是特别设计的mRNA版本,具有抗降解和减少免疫反应的能力。

了解它们在细胞内的行为方式,使科学家能够微调以获得更大的效果。该模型还提供了关于进化力量如何塑造mRNA序列的见解。它可以揭示为什么5' UTR中的某些模式在不同物种中得以保留,展示翻译效率如何指导自然选择。

揭示共享的生物语言

第二篇论文基于相同的数据集,提供了更广泛的见解。无论细胞类型如何,具有相似生物功能的mRNAs往往以相似的水平进行翻译。多年来,科学家们一直知道相关基因会以协调的方式转录成mRNA。

现在显然,细胞还会在不同类型的细胞中协调将这些mRNA翻译成蛋白质的过程。这揭示了一个将mRNA生成、稳定性、定位和翻译联系在一起的共同调控语言。通过解码这种语言,科学家可以设计更好的疗法,并了解细胞如何维持内部平衡和功能。

这项研究不仅改善了治疗设计,还加深了我们对细胞运作的基本理解。“当我们六年前启动这个项目时,没有明显应用,”Cenik回忆道。科学好奇心激发了一项对科学和医学都具有重大意义的发现。

随着RiboNN等工具的出现,个性化医疗现在可以减少猜测,更多地依赖准确的预测。研究人员可以从数据驱动的模型开始,创造更好的mRNA序列,并更快地提供针对性治疗。

研究结果已在《自然生物技术》期刊在线发表。

【全文结束】