OpenAI的新数据集评估AI回答医疗问题的能力OpenAI's new dataset evaluates how well AI answers medical questions

环球医讯 / AI与医疗健康来源:www.newsbytesapp.com美国 - 英语2025-05-13 17:20:00 - 阅读时长2分钟 - 632字
OpenAI推出了HealthBench,这是一个全面的数据集,用于评估AI模型在回答医疗相关问题方面的表现。该数据集由来自60个国家的262名医生合作开发,包含5,000个模拟健康对话,并使用GPT-4.1进行评分。
OpenAIHealthBenchAI健康相关问题医疗应用医学专业领域模型评分医疗保健评估医疗紧急情况响应
OpenAI的新数据集评估AI回答医疗问题的能力

OpenAI推出了一项名为HealthBench的综合数据集,旨在评估AI模型在回答健康相关问题方面的表现。

该开源资源得到了详细的评估工具的支持,被誉为AI在医疗应用方面的一大进步。HealthBench是由来自60个国家的262名医生共同开发的,包含了5,000个模拟健康对话。

如何对响应进行评分?

每个AI响应都根据医生设计的指南进行评估,评分标准根据医学判断进行加权。这些响应使用OpenAI开发的高级语言模型GPT-4.1进行评分。这种协作方法确保了数据集的全面性,并反映了全球各地不同的医学观点。

OpenAI的o3模型在HealthBench中超越竞争对手

根据HealthBench的评估,OpenAI的o3推理模型以60%的得分超过了其竞争对手。紧随其后的是Elon Musk的Grok(得分为54%)和Google的Gemini 2.5 Pro(得分为52%)。该数据集支持49种语言,并涵盖了神经学和眼科等26个医学专业领域,使其成为评估不同地区和领域内AI在医疗保健方面表现的多功能工具。

HealthBench的工作示例

OpenAI提供了一个示例,展示了如何使用该数据集来评估AI模型对医疗紧急情况的响应。在这个例子中,AI被问到当发现邻居躺在地上不省人事时应该怎么做。模型建议拨打急救电话、检查呼吸并确保呼吸道畅通。HealthBench对这些响应进行了评估,标记出正确的行动和需要改进的地方,并给出了77%的评分。


(全文结束)

大健康
大健康