由类似DNA的连接构建的数字树,展现了科学家追踪微生物祖先关系的方式。图片来源:亚利桑那州立大学生物设计研究所。
微生物无处不在。它们存在于人体内、土壤中、海洋里,甚至我们呼吸的空气中。这些微观生物在人类健康、农业、气候调节以及生态系统平衡中发挥着至关重要的作用。然而,尽管现代DNA测序技术强大,科学家仍难以识别许多微生物并理解它们之间的关联。
目前,亚利桑那州立大学的研究人员开发出两项强大新工具,使微生物世界的研究更简便、更精准且更具可扩展性。这些进展共同强化了微生物组研究、疾病追踪、环境科学以及精准医学等新兴领域的研究基础。
该工作由亚利桑那州立大学生命科学学院助理教授、生物设计基础与应用微生物组学中心研究员朱其云(Qiyun Zhu)领导。朱及其团队在《自然·通讯》和《自然·方法》两本期刊上分别发表的两项独立研究中详细阐述了这些发现。
理解微生物的亲缘关系对众多科学领域至关重要。精准的微生物家谱帮助研究人员追踪致病生物的进化过程、监测有害菌株的传播,并解析微生物群落如何响应污染或气候变暖等环境变化。这些家谱对肠道微生物组研究尤为关键,该领域已证实微生物平衡与消化、免疫及整体健康密切相关。
为构建此类家谱,科学家依赖"标记基因"——特定DNA片段,如同世代相传的遗传路标。数十年来,研究者仅使用少量固定的传统标记基因。但宏基因组学的兴起改变了这一局面:科学家如今能一次性对环境中的所有DNA进行测序,揭示数百万微生物基因组。
许多基因组不完整或质量参差,导致传统标记基因可靠性下降。为应对挑战,朱团队开发了名为TMarSel(基于进化树的标记基因筛选)的新方法。该方法不再依赖预定义基因列表,而是自动筛选数千个可能的基因家族,选择能生成最可靠进化树的组合。系统评估每个基因的分布广度、信息含量及其对微生物关系稳定图谱的贡献度。这种灵活的数据驱动方法使科学家即使面对海量数据集和不完整基因组,也能构建精准家谱。
与此同时,朱也是全球研究者广泛使用的开源软件库scikit-bio的核心开发者。该工具为分析复杂生物数据(尤其是微生物组数据)提供计算支持。生物数据集以规模庞大、稀疏且特征高度互联著称,标准数据分析软件难以处理。scikit-bio通过提供稳健工具包解决此问题,助力科学家比较微生物群落、测量多样性、分析基因序列、构建进化树并为机器学习准备数据。
该项目开源且由社区驱动,汇聚全球80多位开发者的贡献。其可靠性和详尽文档使其成为现代生物研究中最广泛应用的工具之一,在医学、生态学、癌症研究和气候科学等数万项研究中被引用。
随着DNA测序速度提升与成本下降,科学家正获取日益庞大的微生物数据洪流。TMarSel和scikit-bio等工具确保这些信息能转化为有意义的洞见而非淹没性噪音。通过将进化生物学与高级软件设计相结合,朱及其团队正帮助全球科学家更深入理解这些塑造地球生命的隐形生物。
【全文结束】


