DeepMind推出新型AI模型AlphaGenome 可同时读取百万DNA字母并理解其功能DeepMind's New AI Can Read a Million DNA Letters at Once—and Actually Understand Them

环球医讯 / AI与医疗健康来源:gizmodo.com美国 - 英语2026-01-29 11:09:13 - 阅读时长3分钟 - 1439字
谷歌DeepMind研发的AlphaGenome人工智能模型能够一次性解析长达一百万个DNA碱基对的序列,其准确性和分析广度超越现有技术,为破解基因组中占98%的"暗物质"区域提供突破性工具。该模型可同时预测近6000种人类遗传信号功能,有望推动罕见遗传病诊断、癌症驱动突变识别及新药靶点发现,但科学家强调其性能受限于生物医学数据的质量和标准化程度,揭示出当前基因组暗物质研究仍面临数据规模不足的核心挑战,标志着人工智能在精准医疗领域应用的重要里程碑。
AlphaGenomeAI模型DNA序列基因组暗物质非编码区域基因变异健康生物学罕见遗传病癌症突变药物靶点
DeepMind推出新型AI模型AlphaGenome 可同时读取百万DNA字母并理解其功能

人工智能近来声誉不佳,而且往往事出有因。但谷歌DeepMind的一支科研团队声称发现了一项革命性应用:利用人工智能更高效地破解人类基因组的"暗物质"。

在今日发表于《自然》杂志的研究中,DeepMind研究人员推出了深度学习模型AlphaGenome。研究团队称,与现有模型相比,AlphaGenome能预测更长DNA序列的功能,同时保持同等准确度。该团队希望此模型能成为分析人类DNA细微变异如何影响健康与生物学的有力工具,尤其适用于基因组中绝大多数默默运作的区域。

"我们非常高兴推出AlphaGenome:这是我们破译复杂调控密码的解决方案,"谷歌DeepMind研究副总裁Pushmeet Kohli在周二的新闻发布会上表示。

基因组暗物质指南

人类DNA承载着构建和调控所有生物特征的指令。但仅有约2%的基因实际编码数十万至数十万种维持生命所需的蛋白质,例如胰岛素或胶原蛋白。其余98%的DNA由非编码区域构成,更优雅的称谓是基因组的"暗物质"。科学家曾认为这些遗传暗物质是无用的垃圾DNA,但现在已知其中包含调控蛋白质生成基因的关键序列。

尽管科学家已绘制出大部分人类基因组,我们对许多基因运作机制仍知之甚少,尤其是非编码区域中的基因;我们也不清楚这些基因的变异如何影响其功能。早在人工智能成为文化热词(和笑柄)之前,科学家就已利用实验室数据训练的深度学习模型,更高效地筛选海量人类基因组数据,并预测基因或DNA序列的功能。但DeepMind研究人员称AlphaGenome是迄今最全面且准确的DNA序列模型。

DeepMind团队使用人类和小鼠基因组训练该模型。据称它能一次性分析长达1兆碱基(Mb)——约100万个DNA字母——的序列,而旧模型仅能分析500千碱基(kb)左右,且需付出精度代价。从该序列中,模型可"预测数千种功能性基因组轨迹"。这些轨迹不仅涉及基因或DNA序列的表达方式,还包括其他不易察觉的功能,例如编码与非编码DNA区域间的相互作用,或染色质的结构(染色质是细胞中遗传物质的松散包裹形式;染色体则是更规整的包装版本)。

在论文中,研究人员详细说明AlphaGenome在26项测试中有25项达到或超越其他现有AI模型的预测能力,这些测试用于评估其预测基因变异效果的准确度。然而,该模型的价值不仅在于精度,更在于其并行处理能力:据研究人员称,它能同时预测近6000种与特定功能相关的人类遗传信号。

人工智能基因组学的未来

至少部分外部科学家称赞了AlphaGenome的能力,同时指出它尚不能解决基因密码的所有遗留谜题。

"在惠康桑格研究所,我们使用超过50万项新实验测试了AlphaGenome,其表现确实出色,"剑桥大学惠康桑格研究所生成与合成基因组学负责人Ben Lehner向科学媒体中心表示,"但AlphaGenome远非完美,仍有许多工作要做。人工智能模型的性能取决于训练数据的质量。生物学现有数据大多不适合AI——数据集太小且标准化不足。"

尽管如此,DeepMind研究人员及该领域其他专家认为AlphaGenome标志着人工智能基因组学的真正里程碑,有望使该技术更具实用价值。他们主张AlphaGenome或类似模型现在可用于更精准诊断罕见遗传病、识别驱动癌症的突变,或发现新的药物靶点。

【全文结束】