OpenAI推出HealthBench，一个用于评估医疗AI模型的数据集 - AI与医疗健康

OpenAI推出HealthBench，一个用于评估医疗AI模型的数据集OpenAI Launches HealthBench, a Dataset That Benchmarks Healthcare AI Models

环球医讯 / AI与医疗健康来源：www.cnet.com美国 - 英语2025-05-13 05:00:00 - 阅读时长2分钟 - 625字

OpenAI推出了一个新的开源大型语言模型HealthBench，旨在帮助医疗行业评估AI模型在处理健康相关问题时的表现。该模型由来自60个国家的262名医生共同开发，内置了5000个真实的健康对话，并使用GPT-4.1进行评分。

OpenAI，即ChatGPT的创建者，推出了一款新的开源大型语言模型HealthBench，旨在让医疗行业能够对AI模型进行基准测试。该公司在周一的一篇博客文章中宣布了这一消息。

该模型是在与来自60个国家的262名医生合作下开发的，内置了5000个真实的健康对话。HealthBench的目标是发现AI模型是否能为人们的健康相关问题提供最佳的回应。每个回应都根据医生编写的评分标准进行衡量，每个标准的权重都经过调整以匹配医生的判断。评分标准由GPT-4.1进行评分。

根据HealthBench的评估，OpenAI的o3推理模型表现最佳，得分为60%，其次是Elon Musk的Grok，得分为54%，以及Google的Gemini 2.5 Pro，得分为52%。

（披露：CNET的母公司Ziff Davis于今年4月对OpenAI提起诉讼，指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。）

在博客文章中，OpenAI提出了一种情景：一位70岁的邻居躺在地上，虽然有呼吸但没有反应。这时，有人向AI询问应该怎么做。模型会给出一个包含步骤的回答，例如呼叫紧急服务、检查呼吸和保持气道通畅。HealthBench会对这个回答进行评分，解释哪些部分回答正确，哪些部分可以改进。最终，它会给出一个分数，在这个例子中是77%。

该模型支持49种语言，包括阿姆哈拉语和尼泊尔语，并涵盖了26个医学专业领域，如神经外科和眼科。

(全文结束)