现代生物学充斥着海量数据。科学家可以测序DNA、逐细胞追踪基因活性、在空间中映射蛋白质,并以显微分辨率成像组织。然而,将所有这些信息整合起来形成一个连贯的整体视图仍是一个挑战。
统一AI的新愿景
阿卜杜拉国王科技大学(KAUST)提出的人工智能(AI)愿景有望弥合这一差距。生物医学部AI4BioMedicine实验室的成员描述了一种将多种生物学数据模态整合到单一模型中的AI系统。
这种被称为"超级Transformer"的新AI架构旨在将当今不同技术产生的碎片化测量结果转化为细胞和组织内部生命的更连贯图景。这项工作已发表在《自然·方法》期刊上。
"这弥合了孤立计算方法之间的差距,"主导这项研究的KAUST生物科学与计算机科学教授杰斯珀·特格内尔(Jesper Tegnér)表示。
"如果AI要超越狭窄的单一用途生物学分析,这种整合将是必要的,"共同作者、研究科学家苏米尔·汗(Sumeer Khan)表示,他与博士后研究员哈维尔·马丁内斯·德·莫伦廷(Xabier Martínez de Morentin)共同撰写了这篇论文。他解释说,所提议的架构旨在"促进跨数据类型的可扩展整合",从而为基因组学和生物医学研究提供一个通用框架。
这一想法符合特格内尔及其KAUST同事们更广泛的努力,即构建既能整合生物学测量又能解释其推断结果的AI系统。
连接生物学的各个尺度
能够同时从DNA序列、基因活性、组织图像和其他数据中学习的单一模型,可能会开始连接生物学各层次的因果关系,将基因变化与改变的细胞、组织乃至最终的疾病联系起来。
当考虑到当今生物学数据的分析方式时,这种系统的吸引力变得更加清晰。大多数计算工具都是为单一任务构建的:一个算法用于DNA序列,另一个用于单细胞基因表达,再一个用于组织图像。
整合它们的输出通常需要定制的管道、专家判断和猜测。随着数据集规模和复杂性的增长,这种拼凑方法开始变得不可靠。
Transformer如何应用于生物学
Transformer提供了一种可能的前进方向。最初为语言处理开发的Transformer旨在理解单词如何在句子、段落或长篇论述中相互关联。
它们的关键创新在于一种称为"注意力"的机器学习技术,使模型能够权衡数据集中的关系。Transformer不会严格按照顺序处理信息,而是学习哪些元素彼此最为重要,即使它们相距甚远。这种能力对翻译语言或总结文档的系统至关重要,同样的逻辑也适用于生物学。
生物系统充满了遥远和间接的相互作用。基因在DNA的长段上相互影响。细胞对来自邻居和远方组织的信号作出反应。包括疾病相关缺陷在内的分子事件可以向上级联,塑造器官和整个生物体。
从这个意义上说,生命——和疾病——有其自身的"语法",经过足够数据训练的Transformer可能能够学习这种语法。
"超级Transformer"概念内部
"超级Transformer"中的"超级"反映了一种扩展这种方法的雄心。KAUST团队设想的架构不是一次将Transformer应用于单一数据类型,而是能够同时处理多种模态。
在他们的提议中,DNA序列、基因表达谱、空间图谱和图像都将被转换为共享的内部表示,然后通过相同的基于注意力的机制进行链接。
平衡能力与可靠性
这一愿景伴随着重要的注意事项。正如特格内尔和他的合作者去年晚些时候在《自然·通讯》中报道的那样,架构选择和大型神经网络的精细结构会强烈影响鲁棒性、偏差和可解释性,特别是当生物数据嘈杂或不完整时。没有仔细设计的模型扩展可能会放大虚假相关性,而不是揭示有意义的结构。
这些担忧推动了针对生物医学定制的下一代AI系统的设计——这些创新来自KAUST实验室的各个部门。综合来看,这些努力指向一个未来,在这个未来中,AI不再像一系列专业工具的集合,而更像是生物学的统一层。它可以整合多样化数据,对其进行推理,并返回对人类研究人员有意义的答案。
展望生物AI
从这个角度来看,"超级Transformer"最好被理解为不是成品,而是如何构建生物AI以连接尺度而非碎片化的蓝图。
从数据标准化到计算成本,许多实际挑战仍然存在。尽管如此,特格内尔认为方向是明确的。生物学不再缺乏数据;它缺乏一种看到整体的方法。
【全文结束】

