“在生物学人工智能方面我们如今的状况类似于 2020 年的 GPT”:对非洲最大人工智能初创公司首席执行官的采访‘Where we are today in biology AI is similar to GPT in 2020’: An interview with the CEO of Africa’s biggest AI startup

环球医讯 / AI与医疗健康来源:techcrunch.com美国 - 英语2024-10-13 00:02:00 - 阅读时长8分钟 - 3876字
本文报道了非洲人工智能初创公司 Instadeep 被收购后的发展情况,及其在生物科技和其他领域的技术应用和创新。
非洲人工智能初创公司InstadeepBioNTech人工智能在生物技术的应用医疗保健数据安全贝叶斯流网络工业优化铁路调度自动化
“在生物学人工智能方面我们如今的状况类似于 2020 年的 GPT”:对非洲最大人工智能初创公司首席执行官的采访

去年 1 月,德国生物技术公司 BioNTech 以超过 5.5 亿美元收购了非洲人工智能初创公司 Instadeep,该交易于同年 7 月完成。Instadeep 是目前从非洲退出的规模最大的公司,在德国制药巨头的庇护下运营了一年多。现在是审视其自收购以来表现的好时机。

Instadeep 运用先进的机器学习技术将人工智能引入企业应用。其产品从 GPU 加速的洞察到自学习决策系统不等。在去年被收购之前,这家总部位于突尼斯、巴黎和伦敦的企业人工智能初创公司从包括谷歌、德国铁路和 BioNTech 在内的几个全球投资者那里筹集了超过 1.08 亿美元。这三家战略公司也是该初创公司最大的合作伙伴和客户。

值得注意的是,这家成立十年的初创公司在疫情期间与 BioNTech 合作开发了一种早期预警系统,能够提前数月检测出高风险的 COVID-19 变种。Instadeep 与谷歌 DeepMind 合作创建了一个针对非洲沙漠蝗虫爆发的早期检测系统。它还参与了一个雄心勃勃的项目,为欧洲最大的铁路运营商德国铁路实现铁路调度自动化。

尽管这些合作展示了 Instadeep 解决方案的各种应用,但其收购方有一个明确的用例:利用人工智能开发各种癌症和传染病的治疗方法和疫苗——这是它现在在新东家的重点发展方向。

在 BioNTech 完成收购的 15 个月后,联合创始人兼首席执行官 Karim Beguir 在接受采访时告诉 TechCrunch,Instadeep 在这方面取得了重大进展,尽管这家人工智能公司继续独立运营,但仍为生物技术以外的客户提供解决方案。

“我们在生物和生物人工智能能力的目标上与 BioNTech 战略一致,”Instadeep 负责人说,“但我们也有回旋的余地,并继续在非洲和一般情况下成为人工智能领域的一股力量,同时继续开发推动其他垂直领域(如工业优化)创新前沿的技术。”

提升生物技术能力

Beguir 指出,Instadeep 自收购以来过去一年的目标是在 BioNTech 的每一个流程步骤中部署人工智能,以改进现有流程。

以组织学为例,其中涉及组织分析和标记不同组织(如识别肿瘤细胞或健康细胞)的视觉任务。据他介绍,BioNTech 的专家传统上手动完成这项工作。然而,Instadeep 的技术通过部署视觉人工智能和分割系统帮助加速了这一过程,使这种标记组织的工作流程加快了 5 倍。

另一个是其 RiboMab 项目的完成,该项目涉及的 mRNA 编码抗体现已成为 BioNTech 作为免疫治疗公司对抗癌症和其他疾病的工具包的一部分。Instadeep 在 2020 年首次合作期间在其 DeepChain 平台上引入了这个项目,该平台设计蛋白质并分析生物数据。

生物技术涉及大量敏感的医疗保健数据。收集和分析它们是一回事,确保其安全是另一回事。以 23andMe 为例,它曾被誉为生物技术领域的颠覆者,但后来成为大规模数据泄露的受害者,近 700 万人(其客户基础的一半)的数据被曝光。

有趣的是,BioNTech 对这类事件并不陌生。2020 年,黑客通过攻击欧洲药品管理局(EMA),非法获取了与辉瑞合作开发的 COVID-19 疫苗相关的文件。尽管辉瑞和 BioNTech 证实其系统和试验数据仍然安全,但这一事件凸显了即使是监管机构这样的组织,在网络攻击面前也可能十分脆弱。

正如任何首席执行官都会说的那样,Beguir 告诉我,Instadeep 和 BioNTech 对医疗保健数据非常谨慎,特别是在合作关系中目前正在使用人工智能增加数据资产,使他们能够识别精确的蛋白质序列,并可能为癌症和其他免疫治疗用例解锁新的靶点。

但两家公司使用的数据存在分割。BioNTech 处理个人的真实患者数据,而 Instadeep 通常在公开可用的数据上开发模型并进行训练。例如,它就是这样训练其核苷酸转换器(Nucleotide Transformer)的,这是一系列人工智能基因组学模型,如今是世界上下载量最大、最受欢迎的人工智能基因组学模型。

“Instadeep 在公共数据上开发并训练了核苷酸模型,”Beguir 指出,“然而,当我们想在特定用例和真实患者数据上部署模型时,我们在 BioNTech 层面进行,同时具备其作为生物制药领域领先企业在严格监管下遵循严格质量协议所带来的所有隐私保障。”

在 BioNTech 内部和生物技术以外开发新技术

当被问及 Instadeep 在 BioNTech 内部的下一个里程碑是什么时,Beguir 提到了这家初创公司的“最新突破”:贝叶斯流网络(BFN),据该公司称,这是一种用于蛋白质的新型生成式人工智能模型,其性能显著优于自回归和扩散模型。BioNTech 首席执行官 Ugur Sahin 在一份声明中将其描述为“最先进的技术”。

据 Beguir 介绍,该模型通过允许系统在抗体的重链上搜索特定特性(包括化学特性、疏水性或序列长度),在市场上生成了最自然、表现最佳的蛋白质。这类模型对于理解复杂的蛋白质功能和设计新型治疗性蛋白质至关重要。

“我们对像我们这样的人工智能创新的潜力感到兴奋,能够确定实际用例,与 BioNTech 密切合作,并构建将在实验室和诊所进行测试的产品,最终拯救患者的生命,”Beguir 说,“如果你考虑到我们在生物学和人工智能方面的现状,它类似于 2020 年我们在自然语言处理方面与 GPT-3 的情况。系统开始运行,其能力令人印象深刻,但仍有改进的空间。”

Instadeep 上周推出了新的人工智能模型,同时还推出了一台新的近百亿亿次超级计算机。据这些公司称,这使该合作在全球计算和基础设施排名中进入前 100 名,在 H100 GPU 集群中进入前 20 名。

这两项发展都突显了 Instadeep 在 BioNTech 旗下如何在多个生命科学用例中部署人工智能。另一方面,它独立处理其其他业务线,包括用于工业优化的人工智能和深度强化学习。

一个例子是其为德国铁路(其长期合作伙伴之一,也是欧洲最大的铁路运营商)进行的长达 12 年的铁路规划和调度自动化项目。同样,这家总部位于突尼斯和伦敦的人工智能公司也加强了开发其他工业优化用例的努力,例如与德国法兰克福机场合作,利用人工智能优化复杂的机场运营。

“总的来说,我们也看到人工智能代理的潜力在未来非常有吸引力。我们认为工业优化和基于代理的系统与人类同事携手合作,将彻底改变工业效率。所以这也是我们多年来一直关注的另一个领域,也是我们继续投资的领域,”Beguir 指出。

与此同时,本月早些时候,Instadeep 在旧金山推出了其 DeepPCB(深度印刷电路板)产品的专业版,这是一种完全由强化学习驱动的自主人工智能辅助的硬件或印刷电路板设计。Beguir 表示,该公司的竞争对手是其所在特定领域的较小的人工智能初创公司,如位于利雅得的 Intelmatix。

Instadeep 负责人为其公司在解决更复杂的人工智能用例(例如 DNA 的 Gen AI 或蛋白质组学或组合优化的代理工作流)方面的工作感到自豪,并避免了像 NLP 的 Gen AI 这样简单的用例。他声称,除了 BioNTech 的收购外,这种独创性在推动来自美国(该人工智能公司现在在那里有两个办事处)和欧洲(特别是柏林、巴黎和英国)客户的兴趣方面发挥了重要作用。

尽管 BioNTech 花费 5 亿美元收购 Instadeep 以提升其生物技术能力,但出于这样的原因,它让这家人工智能公司在运营上保持独立,同时为其服务于生物技术行业以外客户的活动提供资金。

“因为我们作为人工智能的领导者贡献了价值,而且人工智能技能可以在多个部门得到改进,”当被问及为什么 BioNTech 仍然允许这家人工智能公司从事非生物技术项目时,Beguir 回答说,“这是相同的技术栈,所以在生物技术以外的人工智能工作上花费的时间根本不是浪费时间。BioNTech 还在生物技术研发以外的任务(如运营优化)中部署 InstaDeep。”

Beguir 解释说,虽然 InstaDeep 并非被迫出售,但正是自 2019 年以来与 BioNTech 的共同愿景和成功项目(早在收购之前)说服了这家人工智能公司推进这笔交易。他相信多年合作建立的信任是 InstaDeep 在 BioNTech 旗下保持独立的原因。Instadeep 现在的关键是保持势头,保持高质量的结果,并尽可能长时间地继续创新。

自收购以来,Instadeep 在全球已发展到 400 多名员工。这包括其在非洲的团队,该团队在基加利的新办公室领导公司的地理空间情报工作。

Instadeep 最初与谷歌合作在实地努力检测非洲的蝗虫繁殖地,现在使用过去的标签数据和卫星图像,以 80 - 85%的准确率推断未来 30 天内蝗虫的繁殖地在哪里。Beguir 说,公司的 InstaGeo 框架使用来自美国国家航空航天局或欧洲航天局(ESA)的多光谱卫星图像,是开源的,可供其他公司在整个非洲大陆开发可扩展的解决方案。

“这是人工智能技术和能力产生影响的一个真实例子。我们可以通过卫星大规模地提供这些见解,而不是在地面上收集样本或依赖地面基础设施,并通知多个政府和参与者应对对粮食安全日益增长的挑战,特别是考虑到非洲大陆的气候问题。”

大健康
大健康