研究人员对测试 OpenAI 新的大型语言模型 OpenAI o1 表示,它在聊天机器人对科学的实用性方面迈出了一大步。德国埃尔兰根马克斯·普朗克光科学研究所人工科学家实验室负责人马里奥·克伦(Mario Krenn)表示,在他的量子物理领域,它提供的回答比该公司的上一个模型 GPT-4o 更详细和连贯。克伦是为 OpenAI 测试 o1 预览版的“红队”的少数科学家之一。
自 2022 年 ChatGPT 公开推出以来,驱动此类聊天机器人的大型语言模型平均变得更大、更好,具有更多参数、更大的训练数据集以及在各种标准化测试或基准中的更强能力。
OpenAI 表示,其 o1 系列标志着公司方法的一个转变。观察人士称,这个人工智能(AI)模型的显著特点是它在某些学习阶段花费了更多时间,“思考”答案的时间更长,这使其速度较慢,但能力更强——特别是在对错答案可以明确界定的领域。该公司补充说,o1“能够通过复杂任务进行推理,并在科学、编码和数学方面解决比以前的模型更难的问题”。目前,o1-preview 和 o1-mini(一种更小、更具成本效益、适用于编码的版本)可供付费客户和某些开发者试用。该公司尚未公布 o1 模型背后的参数数量或计算能力的细节。
令人瞩目的是,o1 已成为第一个在名为“研究生级谷歌防问答基准”(GPQA)的测试中最难系列问题——“钻石”组——上击败博士级学者的大型语言模型。OpenAI 表示,其学者在 GPQA 钻石组的得分略低于 70%,而 o1 的总得分是 78%,在物理学中的得分尤其高,达到 93%。参与开发 GPQA 的大卫·雷恩(David Rein)说,这“明显高于下一个最佳报告的(聊天机器人)性能”。雷恩现在在加利福尼亚州伯克利的非营利组织“模型评估和威胁研究”工作,该组织致力于评估 AI 的风险。他补充说:“在我看来,这似乎代表了模型核心推理能力的重大和根本性改进。”
OpenAI 还在国际数学奥林匹克资格考试中测试了 o1。其之前的最佳模型 GPT-4o 仅正确解决了 13%的问题,而 o1 得分 83%。
OpenAI o1 通过使用思维链逻辑工作;在尝试解决问题时,它会通过一系列推理步骤进行自我讨论,并在过程中自我纠正。
OpenAI 决定对任何给定的思维链细节保密——部分原因是该链可能包含错误或社会不可接受的“想法”,部分是为了保护与模型工作方式有关的公司机密。相反,o1 为用户提供其逻辑的重建摘要以及答案。目前尚不清楚,如果揭示完整的思维链,是否会与人类推理相似。
新的能力也有折衷之处。例如,OpenAI 报告称,它收到了传闻反馈,称 o1 模型比其前任更容易“幻觉”——编造错误答案(尽管公司内部测试显示 o1 的幻觉率略低)。
“红队”科学家指出了 o1 在为科学实验制定方案方面有很多帮助,但 OpenAI 表示,测试人员还“强调了与有害步骤有关的缺失安全信息,例如未突出爆炸危险或建议不适当的化学遏制方法,表明该模型不适用于高风险的物理安全任务”。
克伦认为 o1 将通过帮助扫描文献、发现缺失内容并为未来研究提出有趣的途径来加速科学。他成功地将 o1 融入了他共同开发的一个名为 SciMuse2 的工具中。“它创造的想法比 GPT-4 或 GTP-4o 有趣得多,”他说。
加利福尼亚州莫菲特场湾区环境研究所的数据科学家凯尔·卡巴萨雷斯(Kyle Kabasares)使用 o1 复制了他博士项目中的一些编码,这些编码用于计算黑洞的质量。“我只是惊叹,”他说,并指出 o1 花了大约一个小时完成了他花了好几个月的工作。
马萨诸塞州波士顿儿童医院的遗传学家凯瑟琳·布朗斯坦(Catherine Brownstein)表示,医院目前正在测试包括 o1-preview 在内的几个 AI 系统,用于将患者特征与罕见疾病的基因联系起来等应用。她说 o1“更准确,并提供了我认为聊天机器人不可能提供的选项”。


