人工智能(AI)深度学习正在迅速改变生物技术和制药行业。许多行业垂直领域中出现了基于ChatGPT等算法的新AI模型。波恩大学研究人员在《细胞报告物理科学》杂志上发表的一项新研究展示了如何利用基于ChatGPT的AI模型预测双靶点药物,这些药物可以同时抑制两种酶,用于治疗复杂疾病并加速多药理学的发展。
“具有明确多靶点活性的化合物是治疗多因素疾病的候选药物,”波恩大学教授Jürgen Bajorath博士及其合著者Sanjana Srinivasan写道。多药理学是指设计或使用能够同时作用于多个药物靶点的药物。大多数疾病都是复杂的多因素疾病,由遗传、生活方式和环境等多种因素的相互作用引起。多因素疾病的例子包括双相情感障碍、精神分裂症、躁郁症、偏头痛、癫痫、常见癌症、2型糖尿病、阿尔茨海默病、帕金森病、类风湿关节炎、骨质疏松症、哮喘、肾病、多发性硬化症、自身免疫性疾病等。
人工智能在制药和生物制药行业,特别是在研发领域,正取得显著进展。据Statista统计,到2032年,全球药物发现领域的人工智能市场预计将达到130亿美元的收入。“在这里,我们介绍了基于变压器的化学语言模型变体,用于生成双靶点化合物,”研究团队写道。
大型语言模型(LLMs)如OpenAI的ChatGPT是一种具有变压器深度学习架构的人工神经网络。ChatGPT中的“T”代表变压器。变压器通过在大量文本中发现模式进行预测,并具有自注意力机制,使其能够在查看序列的不同部分时更关注相关区域。谷歌在2017年的论文《注意力就是你所需要的》中首次引入了变压器,该论文由Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser和Illia Polosukhin共同撰写。
在这项研究中,Bajorath和Srinivasan创建了一个化学语言模型,该模型接受了一种称为简化分子输入行输入系统(SMILES)字符串的化学符号文本对的训练。SMILES字符串是一种通过字母和符号序列紧凑表示分子的方法。他们的化学语言模型接受了超过75,000个目标对字符串的训练,其中一个字符串表示作用于一个目标蛋白的分子,另一个字符串表示作用于同一目标蛋白并影响不同目标蛋白的化合物。然后,AI模型通过字符串对进行了微调,以便“学习”与各种蛋白质类别相关的可靶向化合物。
“最终模型能够精确重现未参与模型推导的已知双靶点化合物,”科学家们报告说。
这项研究表明,AI变压器模型可以预测能够同时作用于两个蛋白质的化学化合物。这一概念验证是加速许多复杂疾病药物设计并缩短整体药物开发周期的重要一步。
(全文结束)


