著名的芯片制造商和硬件巨头 NVIDIA 已经在医疗健康和生命科学领域投入了大量资源。其最新的举措是在上周宣布与 Arc 研究所合作,推出了迄今为止开发的最大生物学基础模型。
这款新模型名为 Evo 2,建立在 NVIDIA DGX Cloud 平台上,基于近9万亿个DNA和RNA亚单位(核苷酸)及128,000个基因组的数据集进行了训练。这可能是全球范围内最大且最具里程碑意义的努力之一,旨在理解所有生命领域的构建模块和遗传密码。
重要的是,由于该模型的训练非常广泛,它在“根据基因序列预测蛋白质的结构和功能、识别用于医疗和工业应用的新分子以及评估基因突变对其功能的影响”方面表现出色。
这些关于DNA、RNA和蛋白质的见解对于理解生物体的遗传密码、基因表达以及疾病如何影响这些表达尤为重要——这意味着其实际应用范围从药物发现和开发到农业和其他生物工程领域。
正如《自然》杂志所描述的那样,该模型“可以自动生成整个染色体和小基因组。它还可以解读现有的DNA,包括难以解释的与疾病相关的‘非编码’基因变异”。
Arc 研究所与斯坦福大学共同开创了这项工作,为科学家提供了必要的工具和资源,使他们能够专注于复杂科学挑战的研究,而不必担心与获得资金相关的行政任务。据该机构介绍,Evo 2 是“一个基于代表所有已观察到进化过程的基因组快照训练的生物学基础模型。强调通用能力而非特定任务优化,Evo 2 在分子到基因组规模以及所有生命领域中实现了强大的预测和生成性能”。
毫无疑问,NVIDIA 正在逐步增加其在生命科学和医疗健康领域的影响力。我之前曾写过有关其在数字孪生和其他潜在医疗应用方面的工作,此外,其风险投资部门也向该领域投入了数亿美元。鉴于 NVIDIA 已经为几乎所有涉及医疗AI应用的公司提供了计算和硬件基础设施,这一关注点非常合理。
此外,医疗健康和生命科学领域在人工智能应用方面都在蓬勃发展。许多其他公司也在技术与生物学的交叉领域开展工作,因为这两个领域存在诸多挑战,如药物发现和蛋白质折叠。例如,DeepMind 和 Isomorphic Labs 在 AlphaFold 方面取得了巨大进展,这是另一个领先的蛋白质折叠基础模型生态系统。Meta 创建了类似的 ESM 元基因组图谱。鉴于灾难性疾病的发生率不断增加以及病原体的快速演变,这些领域的科学家希望利用AI的最新进展来解决生物学中的一些最棘手的问题。
迄今为止取得的巨大进步为未来几年出现重大的科学发明和发展铺平了道路。毫无疑问,这项工作才刚刚开始。
(全文结束)


