OpenAI的新数据集评估AI回答医疗问题的能力 - AI与医疗健康

OpenAI的新数据集评估AI回答医疗问题的能力OpenAI's new dataset evaluates how well AI answers medical questions

环球医讯 / AI与医疗健康来源：www.newsbytesapp.com美国 - 英语2025-05-13 17:20:00 - 阅读时长2分钟 - 632字

OpenAI推出了HealthBench，这是一个全面的数据集，用于评估AI模型在回答医疗相关问题方面的表现。该数据集由来自60个国家的262名医生合作开发，包含5,000个模拟健康对话，并使用GPT-4.1进行评分。

OpenAI推出了一项名为HealthBench的综合数据集，旨在评估AI模型在回答健康相关问题方面的表现。

该开源资源得到了详细的评估工具的支持，被誉为AI在医疗应用方面的一大进步。HealthBench是由来自60个国家的262名医生共同开发的，包含了5,000个模拟健康对话。

如何对响应进行评分？

每个AI响应都根据医生设计的指南进行评估，评分标准根据医学判断进行加权。这些响应使用OpenAI开发的高级语言模型GPT-4.1进行评分。这种协作方法确保了数据集的全面性，并反映了全球各地不同的医学观点。

OpenAI的o3模型在HealthBench中超越竞争对手

根据HealthBench的评估，OpenAI的o3推理模型以60%的得分超过了其竞争对手。紧随其后的是Elon Musk的Grok（得分为54%）和Google的Gemini 2.5 Pro（得分为52%）。该数据集支持49种语言，并涵盖了神经学和眼科等26个医学专业领域，使其成为评估不同地区和领域内AI在医疗保健方面表现的多功能工具。

HealthBench的工作示例

OpenAI提供了一个示例，展示了如何使用该数据集来评估AI模型对医疗紧急情况的响应。在这个例子中，AI被问到当发现邻居躺在地上不省人事时应该怎么做。模型建议拨打急救电话、检查呼吸并确保呼吸道畅通。HealthBench对这些响应进行了评估，标记出正确的行动和需要改进的地方，并给出了77%的评分。

(全文结束)