一个旨在使英国成为AI驱动药物发现领域领导者的研究联盟OpenBind,已通过发布实验数据集和预测性AI模型实现了首个重要里程碑。
OpenBind于去年首次宣布成立,旨在生成世界上最大的药物与蛋白质相互作用数据集合,规模将达到近几十年来其他同类项目的20倍。该数据库将用于支持能够识别有前景新药的AI模型训练。
该计划的首批成果包括699种化合物与EV-A71肠道病毒中一种蛋白质结合的详细X射线图像,该病毒与一种常见儿童感染疾病——手足口病(HFMD)的轻度病例相关。
OpenBind团队还为601种化合物生成了结合强度测量数据,称这已经是单一蛋白质靶点最大的公开数据集之一,同时提供了一个配套的EV-A71 2A蛋白酶靶向特异性AI模型,研究人员可将其作为开发和测试新计算方法的基础。
"此次首次发布是一个重要步骤,因为它表明我们现在能够大规模生成高质量、标准化的数据,专门用于药物发现中的AI应用,"牛津大学结构生物信息学教授、OpenBind高级研究员夏洛特·迪恩教授评论道。
"随着数据集的扩大,它将为研究人员提供改进这些模型性能所需的一致、可靠信息,"她补充道。
一个新的通用预测模型OpenBind v1计划在本月底发布。
该联盟由牛津大学和位于牛津郡哈维尔科学园区的英国国家同步辐射设施Diamond Light Source共同创立,还包括来自哥伦比亚大学、纪念斯隆凯特琳癌症中心、开放分子软件基金会和华盛顿大学的科学家,以及伦敦初创公司Isomorphic Labs等行业合作伙伴。
根据OpenBind的说法,即使是结构生物学和药物发现中使用的最先进的AI系统,如Google DeepMind的AlphaFold和Recursion的Boltz,也受到其训练数据的限制。虽然它们可以对类似于训练数据中的生物结构进行建模,但预测外观明显不同的新靶点仍然是一个挑战。
OpenBind获得了英国科学、创新和技术部最近设立的"主权AI"基金800万英镑的投资。
"高质量的实验数据对于开发新的和改进的AI模型至关重要,"牛津大学统计系副教授、OpenBind计算研究人员弗格斯·伊姆里博士评论道。
"随着AI性能的提高,这反过来有助于指导未来的实验,帮助加速发现,"他补充道。"这些早期周期的经验教训已经帮助我们提高了管道的速度、一致性和可重复性,这将在OpenBind发展壮大时至关重要。"
【全文结束】

