OpenAI发布HealthBench数据集以测试医疗保健领域的AI - AI与医疗健康

OpenAI发布HealthBench数据集以测试医疗保健领域的AIOpenAI Releases HealthBench Dataset to Test AI in Health Care

环球医讯 / AI与医疗健康来源：www.gastroenterologyadvisor.com美国 - 英语2025-05-15 22:00:00 - 阅读时长3分钟 - 1145字

OpenAI发布了一个大型数据集HealthBench，旨在帮助测试人工智能模型在回答医疗保健问题方面的表现。该数据集由来自60个国家的262名医生共同创建，包含5,000个“真实的医疗对话”，并配有详细的评分工具来评估AI的回答。

OpenAI发布了一个大型数据集，以帮助测试人工智能（AI）模型在回答医疗保健问题方面的表现。

专家们称这是一个重大进展，但也表示需要更多的工作来确保安全性。

这个名为HealthBench的数据集是OpenAI的第一个主要独立医疗保健项目。它包括5,000个“真实的医疗对话”，每个对话都配有详细的评分工具来评估AI的回答，《STAT News》报道。

“作为OpenAI，我们的使命是确保通用人工智能（AGI）对人类有益，”总部位于旧金山的公司健康AI团队负责人Karan Singhal说。AGI是通用人工智能的简称。

“其中一部分是构建和部署技术，”Singhal说。“另一部分是确保像医疗保健这样的积极应用能够蓬勃发展，并且我们做了正确的工作，以确保这些模型在这种环境中是安全可靠的。”

该数据集是在262名曾在60个国家工作的医生的帮助下创建的。他们提供了超过57,000个独特的标准来评判AI模型回答医疗问题的表现。

HealthBench旨在解决一个常见问题：公平比较不同的AI模型。

“OpenAI所做的就是以一种可扩展的方式，从一个非常大、信誉良好的品牌提供这种服务，这将使人们非常容易地使用它，”MedStar Health的健康AI研究员Raj Ratwani说。

HealthBench中的5,000个例子是由医生设计的合成对话组成的。

“我们希望在能够发布数据的同时，平衡好隐私约束，使用真实的数据，”Singhal告诉《STAT News》。

该数据集还包括一组1,000个特别难的例子，AI模型在这些例子上表现不佳。OpenAI希望这一组“在未来几个月内为模型改进提供一个有价值的目标”，《STAT News》报道。

OpenAI还测试了自己的模型以及谷歌、Meta、Anthropic和xAI的模型。OpenAI的o3模型得分最高，尤其是在沟通质量方面，《STAT News》报道。

但专家们表示，模型在上下文意识和完整性等方面表现较差。

一些人警告说，OpenAI在评估自己的模型时可能存在偏见。

“在医疗保健这样敏感的领域，我们在讨论生死问题，这种程度的不透明度是不可接受的，”Hao解释道。

其他人指出，AI本身被用来评估某些回答，这可能会导致错误被忽视。

“这可能会掩盖模型和评分者共有的错误，”纽约市西奈山伊坎医学院的人工智能和人类健康负责人Girish Nadkarni告诉《STAT News》。

他和其他人呼吁进行更多的审查，以确保模型在不同国家和不同人口群体中都能良好运行。

“HealthBench改善了大规模语言模型在医疗保健评估中的表现，但在支持安全声明之前，仍需要子组分析和更广泛的人类审查，”Nadkarni说。

(全文结束)