通过先进的RNA测序技术,生物医学研究人员能够测量数百万个单细胞中基因的活性,创建组织、器官和疾病的详细图谱。分析这些数据集需要罕见的技能组合:深厚的生物学知识和将数据转化为洞见的编程能力。如果我们能为生物医学研究人员配备一个能够查看数据、支持分析、了解生物学且易于对话的AI助手呢?这将为科学家提供一个兼具生物学和生物信息学专业知识的虚拟AI同事,支持他们的研究。
朝这一目标,由奥地利科学院分子医学研究中心CeMM首席研究员、维也纳医科大学教授Christoph Bock领导的研究团队开发了CellWhisperer。CellWhisperer是一种AI方法和软件工具,将基因表达与超过一百万个生物样本的描述性文本关联起来。它提供AI聊天框,使科学家能够用英语探究复杂生物学,无需处理复杂的计算机代码。这项发表在《自然·生物技术》上的研究展示了AI如何在研究疾病生物学基础时,为科学家提供与数据交互的新方式。
从基因到文本——反之亦然
CellWhisperer对基因活性谱和匹配的生物文本应用多模态深度学习,这些数据由作者在AI模型帮助下从公共数据库整理而来。结合这两种数据模态,现在可以用基于文本的查询(如"显示自身免疫疾病患者发炎结肠中的免疫细胞")搜索海量数据集。
CellWhisperer多模态AI进一步整合了一个大型语言模型,该模型经过训练以模拟生物学家和生物信息学家在分析数据时的讨论。因此,与CellWhisperer聊天听起来有点像与生物信息学同事交谈,依靠CellWhisperer对生物数据的解读和大型语言模型的生物学知识。例如,用户可以询问CellWhisperer关于特定细胞中活跃的基因,并让模型评论潜在的生物学意义。CellWhisperer构建在基于流行CELLxGENE浏览器的用户友好网页前端上,现已免费在线提供。
"通过对过去二十年20,000项实验数据的训练,CellWhisperer学习了基因和细胞的生物学作用,"CeMM研究中心Christoph Bock研究小组的前博士后研究员、现斯坦福大学研究员、共同第一作者Moritz Schaefer解释道。"这样,CellWhisperer能够分析来自多个领域的新型单细胞RNA测序数据,使生物医学数据探索变得更轻松、更令人兴奋。"
迈向AI研究助手
为展示CellWhisperer在生物发现方面的潜力,研究团队将其应用于人类胚胎发育的单细胞RNA测序数据。通过"心脏"或"大脑"等基本查询,该模型识别出与人类器官形成相关的发育时间点、细胞群体和标记基因。许多这些标记与已知的发育基因匹配,而其他则指向先前被忽视的候选基因。
"CellWhisperer不仅使生物医学研究更容易,还帮助我理解我所研究的细胞中正在发生什么,"圣安娜儿童癌症研究所共同第一作者Peter Peneder表示。
"科学是团队合作,而有了CellWhisperer,一位AI研究助手加入了我们的团队。CellWhisperer在探索性研究中真正发挥作用——获取新数据集的初步印象并确定深入挖掘的方向。它支持并赋能我们作为人类科学家,"Christoph Bock强调。
参考文献:Schaefer M, Peneder P, Malzl D等. 多模态学习实现基于聊天的单细胞数据探索. 《自然·生物技术》. 2025.
【全文结束】


