OpenAI推出HealthBench,一个用于评估医疗AI模型的数据集OpenAI Launches HealthBench, a Dataset That Benchmarks Healthcare AI Models

环球医讯 / AI与医疗健康来源:www.cnet.com美国 - 英语2025-05-13 05:00:00 - 阅读时长2分钟 - 625字
OpenAI推出了一个新的开源大型语言模型HealthBench,旨在帮助医疗行业评估AI模型在处理健康相关问题时的表现。该模型由来自60个国家的262名医生共同开发,内置了5000个真实的健康对话,并使用GPT-4.1进行评分。
OpenAIHealthBench医疗AI模型健康对话健康相关问题回应医疗行业基准测试医学专业领域健康评估
OpenAI推出HealthBench,一个用于评估医疗AI模型的数据集

OpenAI,即ChatGPT的创建者,推出了一款新的开源大型语言模型HealthBench,旨在让医疗行业能够对AI模型进行基准测试。该公司在周一的一篇博客文章中宣布了这一消息。

该模型是在与来自60个国家的262名医生合作下开发的,内置了5000个真实的健康对话。HealthBench的目标是发现AI模型是否能为人们的健康相关问题提供最佳的回应。每个回应都根据医生编写的评分标准进行衡量,每个标准的权重都经过调整以匹配医生的判断。评分标准由GPT-4.1进行评分。

根据HealthBench的评估,OpenAI的o3推理模型表现最佳,得分为60%,其次是Elon Musk的Grok,得分为54%,以及Google的Gemini 2.5 Pro,得分为52%。

(披露:CNET的母公司Ziff Davis于今年4月对OpenAI提起诉讼,指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。)

在博客文章中,OpenAI提出了一种情景:一位70岁的邻居躺在地上,虽然有呼吸但没有反应。这时,有人向AI询问应该怎么做。模型会给出一个包含步骤的回答,例如呼叫紧急服务、检查呼吸和保持气道通畅。HealthBench会对这个回答进行评分,解释哪些部分回答正确,哪些部分可以改进。最终,它会给出一个分数,在这个例子中是77%。

该模型支持49种语言,包括阿姆哈拉语和尼泊尔语,并涵盖了26个医学专业领域,如神经外科和眼科。


(全文结束)

大健康
大健康