BioChatter:解锁生物医学研究的人工智能
介绍一个专为定制生物医学研究设计的大规模语言模型(LLM)框架
BioChatter:使大规模语言模型在生物医学研究中变得易用。图片来源:Karen Arnott/EMBL-EBI
摘要
- BioChatter 是一个用于在生物医学研究中部署大规模语言模型(LLM)的开源Python框架。
- BioChatter 可支持创建专门针对生物医学应用场景的 LLM 驱动解决方案。
- 像 BioChatter 构建的 AI 解决方案可以简化非计算研究人员的工作流程,推动个性化医疗和药物发现等领域的发展。
大规模语言模型(LLM)已经改变了我们许多人的工作方式,从支持内容创作和编码到改进搜索引擎。然而,LLM 缺乏透明度、可重复性和定制化仍然是限制其在生物医学研究中广泛应用的挑战。
什么是大规模语言模型(LLM)
大规模语言模型(LLM)是通过利用大量训练数据生成类人文本的人工智能系统。它们能够执行广泛的任务,如文本生成、语言翻译、摘要生成、回答问题等。
对于生物医学研究人员来说,优化 LLM 以解决特定研究问题可能非常困难,因为这需要编程技能和机器学习专业知识。这些障碍减少了 LLM 在许多研究任务中的应用,包括数据提取和分析。
一篇发表在《自然生物技术》上的新论文介绍了 BioChatter,以帮助克服这些局限。BioChatter 是一个开源的 Python 框架,用于在生物医学研究中部署 LLM,遵循开放科学原则。为了应对商业 LLM 常见的隐私和可重复性问题,BioChatter 提供了一个框架,使研究人员可以在 LLM 工作流中获得透明度和灵活性。
“大规模语言模型具有巨大潜力,可以通过使复杂的数据和分析任务更易于访问来改变生物医学研究,”欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)研究负责人、海德堡大学休假教授 Julio Saez-Rodriguez 说。“然而,要充分利用这项技术进行生物医学研究,我们需要优先考虑透明度和可重复性的工具。BioChatter 弥补了这一差距,使研究人员能够将 LLM 功能集成到许多生物医学研究任务中。”
与生物医学知识图谱和软件的接口
BioChatter 可以适应特定的研究领域,从生物医学数据库和文献中提取数据。此外,通过 BioChatter 的 API 调用功能指示 LLM 使用外部软件,可以实现实时访问最新信息并与生物信息学工具集成。
BioChatter 的一个关键特性是它可以与使用 BioCypher 构建的知识图谱集成——这些图谱链接了基因突变、药物-疾病关联和其他临床信息等生物医学数据。这些图谱帮助研究人员分析复杂数据集,以帮助识别疾病中的基因变异或理解药物机制。
“BioChatter 的设计目的是降低生物医学研究人员使用大规模语言模型的门槛,提供一个开放、透明的框架,可以根据不同的研究需求进行调整,”海德堡大学医院博士后研究员、即将成为亥姆霍兹慕尼黑研究中心首席研究员的 Sebastian Lobentanzer 说。“我们的目标是帮助科学家专注于他们的研究,而将技术复杂性留给平台。”
实际应用
BioChatter 的下一步是将其集成到生命科学数据库中进行试验。BioChatter 团队正与 Open Targets 密切合作,Open Targets 是一个包括 EMBL-EBI 在内的公共-私人合作伙伴关系,使用人类遗传学和基因组学数据进行系统的药物靶标识别和优先排序。将 BioChatter 集成到 Open Targets 平台中可以帮助用户更便捷地访问和使用该平台的生物医学数据。
团队还在开发 BioGather,这是一个互补系统,旨在从其他临床数据类型中提取信息,包括基因组学、医疗记录和图像。通过帮助分析和对齐这些数据类型,BioGather 将帮助研究人员解决个性化医疗、疾病建模和药物开发中的复杂问题。
资助
这项工作得到了欧盟根据资助协议 No. 101057619 和瑞士联邦教育、研究和创新秘书处(SERI)根据合同 No. 22.00115 的资助,以及欧洲联盟“地平线 2020”研究和创新计划根据资助协议 No. 965193 的资助,美国国立卫生研究院的 U54AG075931 和 R01DK138504 授予项目,以及佩洛通免疫肿瘤学研究所的支持。
(全文结束)


