在临床前药物发现中实现人工智能的民主化
Democratizing Artificial Intelligence in Pre-Clinical Drug Discovery
虽然人工智能驱动的方法声称能提高速度并降低成本,但商业利益却损害了科学合作。
“大多数突破性发现都是基于已有的证据,”Ming-Ming Zhou博士(周明明)在他位于纽约市的办公室中说道,当时我们俯瞰着云雾笼罩的中央公园。“关键在于有人能够以不同的方式将这些点连接起来,从而解决问题。”
Zhou于1997年开始其教职生涯,目前是西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)生理学与生物物理学教授。他的实验室设计化学化合物以调节染色质介导的基因转录,用于治疗应用。Zhou在溴结构域(bromodomain)化学靶向方面的开创性工作开辟了一个全新的药物发现领域,该领域针对多种癌症和炎症性疾病。溴结构域是一组识别组蛋白乙酰化赖氨酸的蛋白质。
回顾过去三十年的治疗研究,Zhou表示,基于结构的药物发现已经转变为人工智能(AI)辅助的药物发现。这是一个蓬勃发展的跨学科领域,正从依赖文献定义的疾病靶点转变为通过大数据进行大规模搜索,寻找前所未见的新线索。据Zhou称,这种范式转变正是西奈山新成立的人工智能小分子药物发现中心(AI Small Molecule Drug Discovery Center)所直面解决的问题。
为人工智能创新打造家园
由药理科学教授兼西奈山治疗发现中心副主任Avner Schlessinger博士(阿夫纳·施莱辛格)领导,该人工智能计划于4月启动,成为纽约最新利用计算方法进行临床前开发的中心。
为了扩大对人工智能驱动药物发现的访问,该中心将通过研讨会、实习项目和药物发现黑客马拉松,为下一代科学家提供实践培训,同时与制药公司、生物技术公司和学术机构开展以人工智能为重点的研究合作。
“药物发现是一个低效的过程。其中一个最大的限制因素是缺乏沟通、互动或跳出框框思考的能力,”Zhou告诉《GEN》杂志。“这个中心旨在将人们聚集在一起,解锁新思想和技术,以帮助我们应对这一限制。”
与依赖缓慢且资源密集型实验流程的传统药物发现不同,经过大量分子结构和生物活性数据集训练的人工智能模型可以在合成之前预测新化合物的特性。这种方法被认为可以大幅提高临床前研究项目的通量和规模,同时降低成本。
西奈山中心将专注于三个核心领域:使用生成式人工智能设计新型类药物分子;优化现有化合物以提高其疗效和安全性;以及预测药物-靶点相互作用,从而重新利用已知药物或天然产物来治疗新适应症。
“我很久以前就开始研究人工智能和机器学习,那时它还不流行呢,”Schlessinger笑着说道,当时我们在参观西奈山校园时避开了纽约市的出租车。“但现在正是利用西奈山的数据集和专家改进模型以解决实际问题的好时机。”
作为一所嵌入医院系统的医学院,西奈山社区强调对患者护理的影响。许多研究项目具有高度转化性,范围从阿尔茨海默病的靶点识别到开发基于患者数据预测突变致病性的机器学习算法。
西奈山生物医学科学研究生院院长Marta Filizola博士(玛塔·菲利佐拉)负责该中心的研究生教育工作,她强调了跨学科教育对于推动下一波人工智能创新的重要性。这一理念促使西奈山推出了最新的博士课程——医学人工智能与新兴技术(AIET)。
“我们创建了一个基础设施,以提高西奈山人工智能培训的知名度,并让学生在直接与改善人类健康相关的研究项目中获得实践经验,”她告诉《GEN》杂志。
给我看看数据
历史上,基于结构的药物发现主要依赖于蛋白质数据库(PDB),这是一个公开可用的数据集,包含研究人员在过去50年间收集的超过20万条实验确定的蛋白质和核酸结构数据。
虽然PDB一直是推动人工智能进步的强大资源,例如荣获诺贝尔化学奖的蛋白质结构预测算法AlphaFold,但许多新药靶点并不在PDB范围内,这促使许多人工智能生物技术公司投资于自己的数据生成。然而,这些专有行业数据大多仍被锁住。
“任何构建和创新新模型架构的人都面临一个关键问题,那就是他们无法在专有数据上进行基准测试。工业级研究的有效性是你无法评估的,”Apheris首席执行官兼联合创始人Robin Roehm在接受《GEN》采访时表示。“获取行业数据进行基准测试对所有构建模型的人来说都具有巨大价值。”
Apheris是一家初创公司,专注于为机器学习提供受监管、私密且安全的数据访问。今年3月,这家总部位于柏林的公司宣布与AI结构生物学联盟(AI Structural Biology Consortium, AISB)合作,利用艾伯维(AbbVie)和强生(Johnson & Johnson)的专有数据,在保密环境中微调OpenFold3,这是一种由哥伦比亚大学系统生物学助理教授Mohammed AlQuraishi博士(穆罕默德·阿尔库赖希)实验室开发的蛋白质结构预测算法。截至5月,参与的药物开发商名单已扩展至包括阿斯利康(AstraZeneca)、勃林格殷格翰(Boehringer Ingelheim)、赛诺菲(Sanofi)和武田(Takeda)。
推动开源代码
其他科学家则希望通过广泛开放人工智能分子模型来促进合作。今年6月,麻省理工学院(MIT)Jameel健康机器学习诊所的研究人员宣布开源发布Boltz-2,该模型现在能够以空前的速度和准确性预测分子结合亲和力,从而推动商业化药物发现的民主化。
Boltz-2采用宽松的MIT许可证发布,允许商业药物开发者内部使用该模型并应用其专有数据。这项工作是与总部位于盐湖城的人工智能药物发现公司Recursion合作完成的,后者去年与Exscientia合并。MIT研究团队由麻省理工学院杰出的人工智能与健康教授Regina Barzilay博士(雷吉娜·巴齐莱)领导。
Boltz-2是对社区对AlphaFold 3有限可访问性强烈抗议的回应。AlphaFold 3于2024年5月由谷歌DeepMind和Isomorphic Labs在《自然》杂志上发表,但未附带开源代码。AlphaFold 3将蛋白质结构预测工具扩展到广泛的生物分子相互作用,包括小分子、DNA、RNA等,为药物发现提供了强大的下一步。
然而,代码的缺失阻止了其他科学家重现论文结果并在自己的研究中使用该模型,导致超过1000名科学家签署了一封抗议信,呼吁AlphaFold 3的透明性。为应对抗议,AlphaFold 3开发人员在《自然》发表六个月后以限制性非商业许可证发布了代码。
斯坦福大学遗传学与计算机科学副教授Anshul Kundaje博士在发送给《自然》的一封信中并在社交媒体平台X上发布的内容写道:“尽管商业实体没有义务开源或分享其产品的细节,但这并不意味着他们可以绕过构成同行评议和可验证科学出版物的经典标准。《自然》作为同行评议文章发表的内容实际上是一则广告,充其量是一份白皮书。”
回到麻省理工学院,Corso表示,发布Boltz的最大回报是看到社区团结在一个开源项目背后。
“就在封闭模型如AlphaFold 3似乎不可避免地主导该领域的时候,来自学术界和工业界的许多研究人员决定贡献于像Boltz这样的开源项目,以构建新能力并将其开放给所有人使用,”Corso告诉《GEN》。
共同提升
虽然AlphaFold 3在准确预测分子复合物结构方面取得了进展,但DeepMind和Isomorphic Labs尚未(公开)展示通过Boltz-2实现的计算机模拟结合亲和力计算。结合亲和力衡量药物与其靶点之间相互作用的强度,是药物发现中的关键指标,可以从命中发现到先导优化决定候选药物的研发进程。
在准确性方面,Boltz-2在2024年12月举行的第16届蛋白质结构预测关键评估(CASP16)竞赛中表现最佳,这是每两年一次的实验,评估结构生物学领域的最新先进技术。在速度方面,据报道,Boltz-2仅需20秒即可计算结合亲和力值,比当前基于物理的计算标准自由能扰动(FEP)模拟快1000倍。
Recursion的首席研发官兼首席商务官Najat Khan博士表示,Boltz-2的开源发布“提升了所有船只”,推动了技术、生物学和化学的整合。
“结合亲和力是从头到尾开发治疗药物的核心,也是我们许多人一直在努力解决的根本问题,”Khan说。“这次合作的价值在于重大的技术进步,其目的是应用于药物发现。”
今年5月,Recursion表示将终止其11个管线项目中的四个,并暂停第五个项目,以进一步聚焦于癌症和罕见病治疗。该公司期待未来将Boltz-2应用于发现候选药物。
尽管专有限制仍然是商业利益的现实,但教育、数据合作伙伴关系和开源建模正在推动一种合作文化。时间将证明新的AI药物发现范式是否会真正实现民主化。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。