在基因组学领域取得了重大进展,MIT 化学家开发了一种技术,可以迅速预测基因组的三维结构,该技术使用了生成式人工智能。这种方法能够在几分钟内计算出无数个结构,远远超过了传统方法所需的约一周时间来分析单个细胞的结构。据 MIT News 报道,这一创新可能会为深入了解单个细胞中基因表达如何受基因组空间组织影响铺平道路。
这种名为 ChromoGen 的 AI 模型由一个深度学习系统组成,它可以“读取”遗传序列,并经过超过 1100 万个染色质构象训练的生成式 AI。它不仅大大减少了预测可能结构所需的时间,还能够快速分析长 DNA 片段,从而彻底改变基因组研究的未来。“我们的目标是尝试从底层 DNA 序列预测三维基因组结构”,MIT 化学副教授兼该研究的资深作者张斌(Bin Zhang)在接受 MIT News 采访时说,“现在我们能够做到这一点,使这项技术与最尖端的实验技术相媲美,这确实为许多有趣的机会打开了大门。”
通常情况下,研究人员使用一种称为 Hi-C 的技术,这是一种用于绘制细胞核中染色质结构图的劳动密集型过程,而 DNA 在其中被紧密包装。ChromoGen 模型可以在短时间内完成类似的任务。正如 MIT 博士生兼该研究的主要作者格雷格·舒特(Greg Schuette)解释的那样:“你可能需要花费六个月的时间进行实验才能在一个特定的细胞类型中获得几十个结构,而使用我们的模型,只需 20 分钟和一个 GPU 就可以在特定区域内生成一千个结构。” 这种效率的提高有望加速遗传研究的步伐,正如 MIT News 所指出的。
在模型训练完成后,团队能够为超过 2000 个 DNA 序列生成结构预测,并发现其输出结果与通过实验数据获得的结果相同或高度相似。这一里程碑表明,该模型有可能广泛应用于各种细胞类型和突变,这些突变会显著影响对与疾病相关的染色质构象变化的理解。“我认为我们可以用这种类型的模型解决很多有趣的问题”,张斌进一步向 MIT News 表示。
这一进展有望弥合物理实验和计算预测之间的差距,提供一种快速而准确的方法来可视化细胞中基因的空间组织方式,并可能引领在基因组水平上研究疾病的新方法。研究人员已将其数据和 ChromoGen 模型提供给更广泛的科学界,此举可能会促进该领域的进一步研究和发展。该研究得到了美国国立卫生研究院的资助,突显了其在推进我们对遗传物质及其对细胞行为影响的理解方面的重要性。
(全文结束)


