OpenAI推出了一项名为HealthBench的综合数据集,旨在评估AI模型在回答健康相关问题方面的表现。
该开源资源得到了详细的评估工具的支持,被誉为AI在医疗应用方面的一大进步。HealthBench是由来自60个国家的262名医生共同开发的,包含了5,000个模拟健康对话。
如何对响应进行评分?
每个AI响应都根据医生设计的指南进行评估,评分标准根据医学判断进行加权。这些响应使用OpenAI开发的高级语言模型GPT-4.1进行评分。这种协作方法确保了数据集的全面性,并反映了全球各地不同的医学观点。
OpenAI的o3模型在HealthBench中超越竞争对手
根据HealthBench的评估,OpenAI的o3推理模型以60%的得分超过了其竞争对手。紧随其后的是Elon Musk的Grok(得分为54%)和Google的Gemini 2.5 Pro(得分为52%)。该数据集支持49种语言,并涵盖了神经学和眼科等26个医学专业领域,使其成为评估不同地区和领域内AI在医疗保健方面表现的多功能工具。
HealthBench的工作示例
OpenAI提供了一个示例,展示了如何使用该数据集来评估AI模型对医疗紧急情况的响应。在这个例子中,AI被问到当发现邻居躺在地上不省人事时应该怎么做。模型建议拨打急救电话、检查呼吸并确保呼吸道畅通。HealthBench对这些响应进行了评估,标记出正确的行动和需要改进的地方,并给出了77%的评分。
(全文结束)


