由加州大学圣地亚哥分校和加州大学河滨分校研究人员领导的国际团队开发了一个免费的基于网络的平台,旨在使公共代谢组学数据更易于获取。通过允许用户在跨越数千项研究的数十亿化学光谱(分子的独特特征)中搜索化学结构,该工具有望使"大数据"代谢组学变得像标准互联网搜索一样简单直接。它可以用于发现新代谢物、追踪药物暴露情况,并将特定分子与疾病或环境源联系起来。该研究发表在《自然·生物技术》杂志上。
代谢组学是对小分子(如氨基酸和脂质等代谢物)的大规模研究,这些小分子是细胞过程的最终产物。它提供了细胞、组织、器官或整个生物体内发生情况的全面快照,包括由遗传、饮食、环境因素或疾病驱动的生化变化。
关键要点
- StructureMASST是一个免费、公开访问的基于网络的"搜索引擎",可链接数十亿条公共代谢组学记录中的分子。
- 用户可以输入化学结构,发现其与生物体、组织、疾病、样本类型、地理等方面的关系。
- 该工具可通过加速疾病生物标志物和治疗靶点的发现,助力医学进步。
到目前为止,在公共存储库中搜索特定分子需要专业知识,并且仅限于孤立的数据集。这款名为StructureMASST的新工具使研究人员、临床医生甚至公众能够输入化学名称、SMILES字符串(表示2D和3D分子结构的文本)或子结构模式,立即定位这些分子在人类、动物、植物和环境样本中的记录位置——从最近灭绝的动物和早已灭绝的恐龙到国际空间站上的微生物群落。
"它会告诉你这种分子在哪些器官中发现、哪些生物体可以产生它、与哪些健康状况相关,以及与哪些分子相连,"资深作者、加州大学圣地亚哥分校斯卡格斯药学院和制药科学学院以及加州大学圣地亚哥医学院药理学和儿科学系教授Pieter C. Dorrestein博士说。
StructureMASST利用了一个庞大的知识库,该库整合了所有主要公共代谢组学存储库的数据。为了使数据易于搜索,研究人员使用索引技术为存储库中的每个化学光谱添加标签(在可用的情况下与其已知关联),类似于网络搜索引擎的工作方式。标签包括生物体(如人类、小鼠、细菌)、健康状况或疾病(如炎症性肠病、糖尿病、阿尔茨海默病)、样本类型(如血液、唾液、土壤)、地理和环境(如城市与农村、海洋、土壤)、性别以及实验设计(如对照与治疗、剂量、时间点、疾病阶段)。
"搜索引擎允许你输入文本并快速检索与之相关的所有信息,因为整个万维网已经被索引,"同样担任加州大学圣地亚哥协作质谱创新中心主任的Dorrestein说,"我们基本上做了这些网络搜索引擎为文本所做的事情,但对象是分子。"
与搜索引擎类似,索引技术使查询能够在几秒或几分钟内返回结果,这比其他方法所需时间要少得多。索引还使得按疾病搜索成为可能。例如,搜索阿尔茨海默病将检索到所有存储库中与该疾病相关的光谱。
在构建完StructureMASST后,研究人员通过现实世界的例子对这一分子搜索引擎进行了测试,包括知名化合物、天然产物和药物:
- 咖啡因:使用咖啡因分子结构的单次查询返回了6000多个光谱文件,在咖啡植物样本中检测到这种兴奋剂的同时,还在人类血液、牛奶甚至微生物培养物中发现了它。
- 环境暴露:该工具揭示了由枯草芽孢杆菌产生的环境代谢物表面活性素在居住在偏远传统村庄的人群中比城市人群更为常见,这凸显了生活方式和环境如何塑造人类代谢组。
- 细菌铁载体:子结构搜索显示,某些细菌产生的铁螯合化合物存在于患有囊性纤维化和类风湿性关节炎等慢性疾病的患者体内,这表明这些分子可能在免疫调节中发挥作用,或在人体内引发机会性感染。
- 药物分布:使用该工具追踪心脏药物胺碘酮及其代谢物在数十种人类组织中的分布,提供了关于药物暴露和代谢的详细视图,可用于指导安全监测。
除了搜索功能外,StructureMASST还包括内置的质量控制功能,可标记公共库中可能导致错误结论的错误数据。随着科学界贡献新信息,该工具也在不断更新。
通过将大量公开存储的分子数据转化为实用见解,StructureMASST可能成为推进医学、基础生物学和环境科学的重要工具。它将帮助生成假设、揭示有关新陈代谢的新信息,并加速疾病分子生物标志物和治疗靶点的发现。
该研究的其他共同作者包括:加州大学圣地亚哥分校的Yasin El Abiead、Jeong In Seo、Vincent Charron-Lamoureux、Wilhan Donizete Goncalves Nunes、Haoqi Nina Zhao、Kine Eide Kvitne、Simone Zuffa、Helena Mannochio-Russo、Harsha Gouda、Abubaker Patan、Shipei Xing、Jasmine Zemlin、Ipsita Mohany、Julius Agongo、Caraballo Rodriguez Andres Mauricio、Victoria Deleray、Jeremy Carver、Lindsey A. Burnett、Eoin Fahy和Shankar Subramaniam;加州大学河滨分校的Michael Strobel、Mingxun Wang和Daniel Petras;国际基因工程与生物技术中心的Cristina Bez;图宾根大学的Abzer K. Pakkir Shah;罗德斯大学的Jarmo-Charles Kalinski;斯洛伐克共和国环境研究所的Nikiforos Alygizakis;以及欧洲生物信息学研究所的Ozgur Yurekten、Thomas Payne和Juan Antonio Vizcaíno。
披露声明:Dorrestein是Cybele、BileOmix、Sirenas的顾问并持有股权,同时也是Ometa、Enveda和Arome的科学联合创始人、顾问,持有股权和/或从这些公司获得收入,这些均获得加州大学圣地亚哥分校的事先批准。他还在2023年为DSM动物营养与健康公司提供咨询。
该研究部分由陈·扎克伯格倡议(资助编号2024-350548)、韩国国家研究基金会(资助编号RS-2025-02373133)、美国国立卫生研究院(NIH)(资助编号K99ES037746、5U24DK133658、2R01GM107550、U24DK141185和U2CDK119886)以及美国国家科学基金会(NSF)和英国生物技术和生物科学研究理事会(BBSRC)联合资助(奖项编号2152526)。
【全文结束】

