生成式AI设计DNA序列以控制基因开关Generative AI Designs DNA Sequences to Switch Genes On and Off

环球医讯 / AI与医疗健康来源:medicine.yale.edu美国 - 英语2024-10-24 00:00:00 - 阅读时长5分钟 - 2284字
耶鲁医学院、杰克逊实验室和麻省理工学院及哈佛大学布罗德研究所的研究人员开发了一种新的生成式AI方法,用于设计前所未见的调控元件,以精确控制细胞中基因的表达。
生成式AIDNA序列顺式调控元件基因开关基因疗法细胞类型特异性CODA机器学习基因表达
生成式AI设计DNA序列以控制基因开关

我们的基因组中隐藏着一些具有巨大能量来控制附近基因的小序列。这些DNA序列被称为顺式调控元件(CRE),可以开启或关闭邻近的基因。现在,耶鲁医学院(YSM)、杰克逊实验室和麻省理工学院及哈佛大学布罗德研究所的研究人员开发了一种新的生成式AI方法,用于设计前所未见的调控元件,以精确控制细胞中基因的表达。这种AI设计的合成DNA可以在身体特定类型的细胞中开启基因。

研究人员在10月23日发表于《自然》杂志的一篇文章中描述了这一AI平台,称为计算优化DNA活性(CODA)。通过控制某些类型细胞中基因的表达,这项技术未来可能大大改善基因疗法。这种潜在的治愈方法有望重写致病突变,但需要更好的方法将疗法直接递送到携带疾病的细胞,例如帕金森病中失效的特定神经元或携带HIV的免疫细胞。CODA,这个新设计的AI平台,未来可能有助于将基因疗法更精准地递送到患病细胞,同时在健康部位保持不活跃,从而避免可能的伤害。一些早期的实验性基因疗法因这些有害的脱靶效应而未能进入临床应用。最终,CODA的设计者希望利用这种方法开发针对脑部疾病、代谢疾病和血液疾病的靶向基因疗法。

超越人类能力

“这个项目本质上提出了一个问题:我们能否学会读写这些调控元件的代码?”耶鲁医学院遗传学助理教授、该研究的资深作者之一Steven Reilly博士说。“如果我们从语言的角度来看,这些元件的语法和句法是不为人知的。因此,我们尝试构建机器学习方法,以学习比我们自己更复杂的代码。”“进化也许从未想建立一个真正优秀的阿尔茨海默病药物驱动器,但这并不意味着它不存在。”Steven Reilly博士说道。

这种复杂的代码与我们基因的语言形成鲜明对比,后者是一种几十年前就被破解的相对简单的密码。每个基因序列中的三个字母组合翻译成不同的氨基酸,即蛋白质的构建块。只有64个不同的三字母组合,基因的语言并不难学。但调控元件则不然,它们属于人类基因组中约99%的非基因DNA部分。这些调控序列似乎没有遵循一个简单的代码,至少不是人类容易辨认的代码。而且,可能组成这些元件的DNA序列组合空间是巨大的:对于一个平均大小的调控元件,可能的不同DNA序列组合数量超过了已知宇宙中原子的数量,Reilly说。“世界上所有的计算机都无法搜索每一种可能的序列组合,所以你必须找到一种聪明的方法来处理这个问题。”

最近才可用的机器学习方法

如此庞大的问题需要最近才通过深度学习实现的计算方法,这是一种研究人员用来生成新DNA序列的人工智能形式。类似于支持知名工具如DALL-E和ChatGPT的生成式AI方法,CODA可以根据其训练数据库创建新的CRE。该研究的共同资深作者、布罗德研究所核心成员和哈佛大学教授Pardis Sabeti博士说,新技术具有非凡的潜力。“通过将机器学习和分子生物学应用于CRE何时何地发挥作用的逻辑,我们可以利用这些知识,使用生成式AI构建新的工具,以实验方式和或许有一天以治疗方式调制基因表达。”Sabeti说。这项研究涉及复杂的工作,接下来还将进行更多工作。“将计算模型与大规模实验方法相结合是一种强大的策略,”杰克逊实验室的副教授兼该研究的共同资深作者Ryan Tewhey博士说。“然而,模型的质量取决于它们所学习的数据。通过验证发现,我们可以快速确定需要改进的地方。”

科学家们使用来自自然存在的调控元件的数据训练他们的AI模型CODA,以便它可以基于已经有效的DNA序列进行迭代,而不是筛选所有可能的序列。他们使用了实验室培养的人类血液、肝脏和大脑细胞中超过775,000个不同调控元件的活动数据。调控元件可以决定一个基因是否被开启或关闭,以及开启的程度,就像分子调节旋钮一样。而且,这些元件本身通常只在特定的细胞类型中活跃,例如肝细胞,这意味着它们影响的基因只会在这个特定类型的细胞中被开启。

定位特定目标细胞

科学家们在这些相同的三种细胞类型中测试了AI设计的调控元件,发现在许多情况下,合成元件对特定细胞类型的特异性甚至超过了任何自然存在的序列。然后,他们在活体斑马鱼和小鼠中测试了一部分这些合成元件,发现这些序列也能在活体动物的特定细胞类型中开启测试基因。在一个案例中,AI设计的调控元件仅在小鼠大脑的一个非常具体的细胞层中开启了报告基因,尽管它在整个动物体内都被递送。

“我们对CODA设计的序列在细胞类型特异性方面取得的效果印象深刻,”杰克逊实验室的计算科学家、论文的共同第一作者Rodrigo Castro博士说。接下来,研究人员计划使用不同类型的细胞来开发更多细胞类型的特异性调控元件。他们还计划将AI设计的元件与其他必要的基因治疗技术结合起来,首先从某些脑部、代谢或血液疾病开始。理论上,这种方法可以用于任何类型的遗传疾病,Reilly说。布罗德研究所Sabeti实验室的博士后研究员、该研究的共同第一作者Sager Gosai博士表示,这种方法可能超越自然进化作为治疗疾病的方法。“虽然自然CRE数量众多,但它们仅代表可能的遗传元件的一小部分,并且其功能受到自然选择的限制,”Gosai说。Reilly表示同意。“有许多潜在的解决方案可以满足你可能希望调控元件执行的各种任务。”Reilly说。“进化也许从未想建立一个真正优秀的阿尔茨海默病药物驱动器,但这并不意味着它不存在。”


这项工作得到了霍华德·休斯医学研究所和美国国家卫生研究院资助UM1HG009435、R00HG010669、R01HG012872和R35HG011329的支持。


(全文结束)

大健康
大健康