麻省理工学院(MIT)的一项开创性研究中,化学工程师彻底革新了工业酵母生产关键蛋白质的编程方式,引入了一种新型人工智能驱动方法,有望显著减少生物制药生产所需的时间和成本。该研究利用大语言模型(LLMs)的能力——这种模型通常用于自然语言处理,通过重新设计使其解码并优化特定于汉赛克毕赤酵母(Komagataella phaffii)的基因序列。这种酵母被广泛用作细胞工厂,生产从疫苗到治疗性蛋白质的各种产品。
像汉赛克毕赤酵母这样的工业酵母由于能够在工业规模上生产复杂的蛋白质,在现代医学中发挥着不可或缺的作用。然而,优化这些酵母细胞以生产最大产量的目标蛋白质的过程仍然费时费力且资源密集。核心挑战在于DNA密码子的最优选择——即对应特定氨基酸的核苷酸三联体,以在不耗尽细胞资源的情况下增强蛋白质表达。
蛋白质中的每个氨基酸可以由多个密码子编码,而不同生物体在其原生基因中对这些密码子的分布有着独特的偏好和偏见。传统的密码子优化方法通常倾向于使用宿主生物体中最常用的密码子,但这种策略可能会适得其反,造成瓶颈或耗尽翻译所需的特定tRNA分子池。麻省理工学院的研究团队以全新的视角解决了这一问题,应用编码器-解码器风格的语言模型来学习和预测密码子使用模式,就像解读一种生物语言一样。
与早期方法不同,那些方法或多或少地独立处理密码子,而麻省理工学院的模型能够捕捉局部和远距离的上下文——理解密码子如何在整个基因组的长距离范围内相互排列。通过对汉赛克毕赤酵母约5000种原生蛋白质的全面数据集进行训练,该AI学习了密码子使用的微妙"语法"和"句法"——有效地获得了超越简单频率统计的酵母遗传学内在知识。
利用这一数据驱动的模型,研究团队随后开始优化六种不同但具有重要治疗意义的蛋白质的密码子序列,包括人生长激素、人血清白蛋白和抗癌单克隆抗体曲妥珠单抗。他们将AI生成的设计与四种领先的商用密码子优化工具优化的设计进行了比较。结果令人瞩目:在六种蛋白质中的五种,麻省理工学院模型的序列产生了最高的蛋白质产量水平,超过了所有现有方法。对于第六种蛋白质,他们的方法也紧随其后,排名第二。
这一突破表明,人工智能不仅可以匹配,还可以超越传统生物技术工作流程的能力,提供减少不确定性并加速复杂生物药物开发流程的预测工具。这些进展至关重要,因为基因工程、生长优化和产品纯化阶段可能占将一种新的生物制药推向市场总成本的15%至20%。
使这一方法特别值得注意的是模型的生物复杂性。除了简单的模式识别外,该AI似乎已经内化了基本的基因组规则,例如避免负面重复元件——已知阻碍基因表达的DNA序列。它还通过氨基酸的物理和化学特性(如疏水性和亲水性)来区分氨基酸,而无需被明确编程去这样做。这种新兴的理解加强了系统在真实建模生物现实方面的稳健性和可靠性,而非过度拟合优化任务。
该模型的范围不仅限于汉赛克毕赤酵母。对包括人类和牛在内的其他物种数据集的测试表明,密码子偏好确实是物种特异性的,为每个宿主生物体定制AI模型对于实现最佳结果是必要的。这种模块化和适应性强的框架为定制化密码子优化开辟了新时代,可以适用于任何具有生物医学或工业意义的生物体。
由于汉赛克毕赤酵母在生产商业生物制药(如胰岛素和疫苗)以及营养添加剂等特种产品方面有广泛应用,它成为这些创新的理想平台。通过公开提供代码,麻省理工学院团队鼓励更广泛地采用和进一步完善这一AI驱动的流程,创建了一个可访问的资源,以推动全球合成生物学和制造工作。
本研究中体现的机器学习与基因工程的交叉点,例证了计算工具在解码复杂生物系统方面的变革潜力。它标志着向预测性、数据驱动的设计范式的转变,这些范式不仅更高效,而且更一致,从而大大减少了长期以来以试错为特征的蛋白质工程阶段。
随着全球公司和研究人员竞相更快、更具成本效益地开发新的生物药物,这种基于语言模型的密码子优化器等工具可能成为基础技术。它们有望加快关键治疗和疫苗到达患者的速度,最终加速医疗创新的步伐并改善全球健康结果。
该研究得到了多个权威机构的支持,包括麻省理工学院的丹尼尔·I.C.王教师研究创新基金、麻省理工学院AltHost研究联盟、马祖达尔-肖国际肿瘤学奖学金以及科赫综合癌症研究中心。这些合作强调了这项开创性工作在化学工程、合成生物学和人工智能前沿的多学科性质和深远影响。
【全文结束】

