药物发现是人类历史上最昂贵且耗时的事业之一。在美国,从靶点发现到新药获得监管批准通常需要10至15年时间。其中大部分时间并非用于突破性时刻,而是花费在繁琐的分析工作上——筛选海量文献、设计试剂以及解读复杂的生物数据。OpenAI相信AI可以帮助缩短这些时间线,今天它推出了迄今为止最专业的模型来证明这一点。
OpenAI推出了GPT-Rosalind——这是其新生命科学系列中的首个模型——旨在为生物化学和基因组学等领域提供更强的基础推理能力。与在所有领域广泛训练的通用语言模型不同,GPT-Rosalind专门针对生物研究的深度分析需求进行了微调。该模型绝对不是要取代科学家,而是帮助他们更快地通过科学过程中最耗时且分析要求最高的阶段。
GPT-Rosalind的实际功能
了解生物学中的"科学推理"是什么样子很有帮助。例如,一位研究新型基因疗法的研究人员可能需要:查阅数百篇最新论文、识别蛋白质结构中的模式、设计克隆方案,然后预测特定RNA序列在细胞中的行为。传统上,这些步骤各自需要不同的工具、不同的专家和大量时间。
GPT-Rosalind被定位为一种工具,可协助处理科学发现中固有的复杂多步骤工作流程。它支持证据综合、假设生成、实验规划和其他多步骤研究任务,旨在帮助研究人员加速发现的早期阶段。实际上,这意味着该模型可以查询专业数据库、解析最新科学文献、与计算工具交互并建议新的实验路径——所有这些都在同一界面中完成。
OpenAI还推出了针对Codex的生命科学研究插件,将模型连接到50多个科学工具和数据源,使研究人员能够通过熟悉的开发人员界面以编程方式访问生物数据库和计算管道。
基准测试表现:如何评估?
来自AI公司的性能声明需要仔细审查,OpenAI已经公布了针对既定基准的数字。GPT-Rosalind在BixBench上达到了0.751的通过率,这是一个围绕生物信息学和数据分析设计的基准。作为背景,BixBench评估模型在生物信息学家实际执行的真实任务上的表现——例如处理测序数据、运行统计分析和解读基因组输出。0.751的通过率表明该模型在此领域具有强大的实际能力。
在LABBench2上,该模型在11项任务中的6项上优于GPT-5.4,最显著的提升出现在CloningQA——这是一项需要为分子克隆方案进行端到端试剂设计的任务。
最引人注目的评估可能来自真实世界的研究环境。在与Dyno Therapeutics的合作中,该模型使用未发表的序列对RNA序列到功能的预测进行了评估。这些数据从未成为任何公共训练集的一部分,排除了记忆作为混淆因素的可能性。当直接在Codex环境中评估时,该模型的最佳十次提交在预测任务上排名高于95%的人类专家,在序列生成方面达到了第84百分位。对于任何在新型生物数据上运行的AI系统来说,这是一个非凡的结果。
设计上的受控发布
GPT-Rosalind可以在ChatGPT、Codex和OpenAI的API中访问,但其访问权限通过针对美国合格企业客户的可信访问计划进行限制。OpenAI已经内置了技术保障措施,包括标记潜在危险活动的系统以及对模型使用方式的限制。
访问权限保留给致力于改善人类健康成果、进行合法生命科学研究并保持强大安全和治理控制的组织。OpenAI已经在与包括安进(Amgen)、莫德纳(Moderna)、艾伦研究所(Allen Institute)和赛默飞世尔科技(Thermo Fisher Scientific)在内的客户合作,将GPT-Rosalind应用于研究工作流程。该公司还与洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)合作,进行AI引导的蛋白质和催化剂设计。
为什么特定领域模型是下一个前沿
此次发布反映了AI行业中正在发生的更广泛架构转变。领先实验室不再仅仅依赖日益庞大的通用模型,而是开始投资于为特定科学或专业领域优化的模型。特定领域模型可能代表AI的下一个重大阶段,而生命科学——以其广阔的研究空间、高维数据和巨大的社会影响——是最清晰的试验场之一。
正如微调和RLHF(基于人类反馈的强化学习)使语言模型能够专门用于代码生成或指令遵循一样,OpenAI现在正在应用类似策略,使模型能够对基因组序列、化学结构和实验方案进行有意义的推理。
该模型以英国化学家罗莎琳德·富兰克林(Rosalind Franklin)命名,她的研究帮助揭示了DNA结构,为现代分子生物学奠定了基础——对于旨在将这一科学遗产带入新的计算时代的一个模型来说,这是一个恰当的致敬。
【全文结束】

