研究人员开发了新的AI模型,可以显著提高蛋白质科学中的准确性和发现能力。这些模型可以帮助医学科学克服目前在个性化医疗、药物发现和诊断等领域面临的挑战。
随着AI工具的广泛可用,技术和自然科学的大多数领域都在迅速发展。这在生物技术领域尤为明显,AI模型在药物发现、精准医疗、基因编辑、食品安全等多个研究领域推动了突破。
其中一个子领域是蛋白质组学——大规模研究蛋白质,在这个领域中,大量的蛋白质数据被收集到数据库中,以便对样本进行比较。这些数据库使科学家能够识别出样本中存在的蛋白质及其对应的微生物。它们允许医生诊断疾病、监测治疗效果或识别患者样本中的病原体。
尽管这些工具很有用且有效,但它们也有局限性。丹麦技术大学生物工程系副教授蒂莫西·帕特里克·詹金斯(Timothy Patrick Jenkins)表示:“首先,没有任何一个数据库包含所有内容,因此你需要知道哪些数据库适合你的特定需求。其次,深度搜索非常耗时且需要大量计算资源。最后,几乎不可能识别尚未注册的蛋白质。”
为此,一些团队开发了所谓的“从头测序算法”,这些算法提高了准确性并降低了计算成本,但根据詹金斯及其来自丹麦技术大学、荷兰代尔夫特理工大学和英国AI公司InstaDeep的同事的说法,其性能仍然“令人失望”。
在《自然机器智能》杂志上发表的一篇新论文中,他们提出了两个新的AI模型,以帮助研究人员、医务人员和商业实体在海量数据中找到所需的信息。这两个模型被称为InstaNovo和InstaNovo+,可以通过InstaDeep网站提供给研究人员使用。
“总体来看,我们的模型超越了现有的技术水平,并且比目前可用的工具更加精确。此外,正如我们在论文中展示的那样,这些模型并不局限于某个特定的研究领域。相反,这些工具可以在涉及蛋白质组学的所有领域推动重大进展。”InstaDeep公司的研究工程师凯文·迈克尔·埃洛夫(Kevin Michael Eloff)说,他是该论文的共同第一作者。
为了评估这些模型的实用性,研究人员对其进行了训练并在多个主要领域的具体任务上进行了测试。
其中一项研究是在患有静脉曲张性腿部溃疡患者的伤口液体上进行的。由于静脉曲张性腿部溃疡难以治疗且常常变成慢性病,了解存在的微生物(如细菌)对于治疗至关重要。
这些模型可以绘制出比数据库搜索多10倍的序列,包括大肠杆菌和铜绿假单胞菌(后者是一种多重耐药细菌)。
另一个用例是在细胞表面显示的小片段蛋白质(称为肽)上进行的。这些肽有助于免疫系统识别感染和癌症等疾病。InstaNovo模型识别出了数千种使用传统方法未发现的新肽。
在个性化癌症治疗中,增强免疫系统(也称为免疫疗法)的情况下,这些肽都是潜在的攻击目标。
“结合我们对复杂案例的模型测试,例如存在未知蛋白质或我们对相关生物没有先验知识的情况下,表明这些模型非常适合显著提高我们的理解。这对生物医学来说是个好消息,因为它可以直接改善我们对微生物组的识别,以及我们在个性化医疗和癌症免疫学方面的努力。”丹麦技术大学生物工程系助理教授康斯坦丁诺斯·卡洛杰罗普洛斯(Konstantinos Kalogeropoulos)说。
论文提供了六个额外的案例,展示了这些模型如何改进治疗性测序、发现新肽、检测未报告的生物体,并显著增强蛋白质组学搜索。他们的结果影响远不止医学科学领域,蒂莫西·帕特里克·詹金斯说:
“从纯粹的技术和科学角度来看,通过这些工具,我们可以更好地理解整个生物世界,不仅限于医疗保健,还包括工业和学术界。在使用蛋白质组学的每个领域——无论是植物科学、兽医科学、工业生物技术、环境监测还是考古学——我们都可以获得以前无法访问的蛋白质景观的见解。”
(全文结束)


