AI系统自动化科学软件设计，在关键基准测试中超越人工编写的代码 - AI与医疗健康

AI系统自动化科学软件设计，在关键基准测试中超越人工编写的代码AI system automates scientific software design, outperforming human-written code in key benchmarks

环球医讯 / AI与医疗健康来源：techxplore.com美国 - 英语2026-05-25 00:12:01 - 阅读时长4分钟 - 1516字

哈佛大学与谷歌合作开发了一种名为经验研究辅助系统(ERA)的人工智能技术，该系统能自动设计和优化科学软件，在神经活动预测、新冠住院人数预测和单细胞RNA测序数据整合等关键基准测试中表现优于人类编写的代码。ERA结合谷歌Gemini大语言模型与树搜索算法，大幅缩短科研软件开发周期，将原本需要数月的工作压缩至几小时，使科学家能更专注于创造性工作，有望加速多领域科学发现进程，包括物理学、神经科学和公共卫生等前沿领域。

谷歌的一个研究团队在哈佛大学约翰·A·保尔森工程与应用科学学院应用数学与物理学催化教授迈克尔·布伦纳和谷歌研究科学家的共同领导下，开发了一种新型人工智能系统，能够自动生成科学软件程序，其性能超越人工编写的程序。该论文发表在《自然》杂志上。

该系统被称为经验研究辅助系统（Empirical Research Assistance，ERA），项目由布伦纳和谷歌DeepMind的希布勒·穆拉德共同领导。哈佛大学博士生钱泽·朱、瑞安·克鲁格和莎拉·马丁森在布伦纳的团队中担任谷歌学生研究员，为该项目做出了贡献。这项研究是在布伦纳作为催化教授的身份下进行的，该职位由大学设立，旨在通过支持高级教员在外部公司担任研究职位来加强学术界与私营部门之间的关系。

在现代科学中，定制软件经常被用来测试特定假设或解释复杂数据。作者将这类计算机程序称为"经验软件"——其唯一目的是最大化其在科学任务上的表现，例如进行天气预报或预测疾病暴发期间的住院人数。任何可以用数值表达的问题——其"分数"——都被称为可评分任务。

用于解决此类可评分任务的经验软件支撑着许多领域的重大进展，包括最近的三项化学诺贝尔奖。但用于解决这些实验的专业定制软件劳动密集，需要人类多次测试和改进代码。

新的ERA系统通过自动化科学软件设计和优化的完整周期，消除了这一瓶颈——这一过程通常需要人类专家花费数月甚至数年时间。

该系统将谷歌Gemini大语言模型与搜索策略相结合，可以探索和优化数千段代码——速度更快，范围更广，远超人类能力。

从针对特定问题的基准代码开始，新的AI系统通过添加新组件或替换算法来提出修改建议，以提高预定义的质量评分——例如，基于过去的住院人数，该模型预测疾病传播的准确度如何？基于这些氨基酸序列，该模型预测蛋白质结构的效果如何？

该系统使用一种称为树搜索的方法——也在AlphaGo等游戏系统中使用——来决定哪些有希望的想法值得追求，哪些应该放弃，以便更好地完成预测住院人数、预测蛋白质结构等任务。

AI并非独立工作。在此过程中，它可以由论文或教科书中的研究思想指导。这些思想可以直接由用户提供，也可以自动检索并整合到代码的后续版本中。

"这种整合和重组研究思想的能力使系统能够找到'大海捞针'式的解决方案，而人类研究可能永远无法测试到这些方案，"布伦纳说。

为了证明这一点，哈佛大学和谷歌团队将ERA系统应用于一系列不同的科学问题。朱在项目中的角色是使用ERA预测斑马鱼大脑中超过70,000个神经元的活动，并将其与实际神经数据进行比较。

在一个实验中，团队提示ERA使用现有的神经元建模库来构建更符合物理实际的神经活动模拟。对于朱来说，学习新的软件包可能需要数周或数月时间，但ERA可以自动组装和调整模型。

"这个新系统将通过允许你同时探索许多想法来加速科学发现，"朱说。"以前实现某些特定方法可能需要一周时间，但现在你可以在几小时内并行运行它们。"

在一次测试中，ERA系统生成了14个预测COVID-19住院人数的模型，其性能超过了疫情期间美国疾病控制中心使用的最佳模型。

在另一个实验中，ERA发现了四种整合单细胞RNA测序数据集的新方法，击败了顶尖的人工设计方法。

通过将探索一组想法所需的时间从几个月减少到几小时或几天，这个新系统可以为科学家节省大量时间，使他们能够专注于"真正创造性和关键的挑战，并继续定义和优先考虑科学研究可以帮助解决的基本研究问题和社会挑战"，谷歌关于这一突破的博客文章中提到。

【全文结束】