OpenAI发布HealthBench数据集以测试医疗保健领域的AIOpenAI Releases HealthBench Dataset to Test AI in Health Care

环球医讯 / AI与医疗健康来源:www.gastroenterologyadvisor.com美国 - 英语2025-05-15 22:00:00 - 阅读时长3分钟 - 1145字
OpenAI发布了一个大型数据集HealthBench,旨在帮助测试人工智能模型在回答医疗保健问题方面的表现。该数据集由来自60个国家的262名医生共同创建,包含5,000个“真实的医疗对话”,并配有详细的评分工具来评估AI的回答。
OpenAIHealthBench数据集医疗保健AI模型测试医生参与模型评估模型改进安全可靠性人类审查
OpenAI发布HealthBench数据集以测试医疗保健领域的AI

OpenAI发布了一个大型数据集,以帮助测试人工智能(AI)模型在回答医疗保健问题方面的表现。

专家们称这是一个重大进展,但也表示需要更多的工作来确保安全性。

这个名为HealthBench的数据集是OpenAI的第一个主要独立医疗保健项目。它包括5,000个“真实的医疗对话”,每个对话都配有详细的评分工具来评估AI的回答,《STAT News》报道。

“作为OpenAI,我们的使命是确保通用人工智能(AGI)对人类有益,”总部位于旧金山的公司健康AI团队负责人Karan Singhal说。AGI是通用人工智能的简称。

“其中一部分是构建和部署技术,”Singhal说。“另一部分是确保像医疗保健这样的积极应用能够蓬勃发展,并且我们做了正确的工作,以确保这些模型在这种环境中是安全可靠的。”

该数据集是在262名曾在60个国家工作的医生的帮助下创建的。他们提供了超过57,000个独特的标准来评判AI模型回答医疗问题的表现。

HealthBench旨在解决一个常见问题:公平比较不同的AI模型。

“OpenAI所做的就是以一种可扩展的方式,从一个非常大、信誉良好的品牌提供这种服务,这将使人们非常容易地使用它,”MedStar Health的健康AI研究员Raj Ratwani说。

HealthBench中的5,000个例子是由医生设计的合成对话组成的。

“我们希望在能够发布数据的同时,平衡好隐私约束,使用真实的数据,”Singhal告诉《STAT News》。

该数据集还包括一组1,000个特别难的例子,AI模型在这些例子上表现不佳。OpenAI希望这一组“在未来几个月内为模型改进提供一个有价值的目标”,《STAT News》报道。

OpenAI还测试了自己的模型以及谷歌、Meta、Anthropic和xAI的模型。OpenAI的o3模型得分最高,尤其是在沟通质量方面,《STAT News》报道。

但专家们表示,模型在上下文意识和完整性等方面表现较差。

一些人警告说,OpenAI在评估自己的模型时可能存在偏见。

“在医疗保健这样敏感的领域,我们在讨论生死问题,这种程度的不透明度是不可接受的,”Hao解释道。

其他人指出,AI本身被用来评估某些回答,这可能会导致错误被忽视。

“这可能会掩盖模型和评分者共有的错误,”纽约市西奈山伊坎医学院的人工智能和人类健康负责人Girish Nadkarni告诉《STAT News》。

他和其他人呼吁进行更多的审查,以确保模型在不同国家和不同人口群体中都能良好运行。

“HealthBench改善了大规模语言模型在医疗保健评估中的表现,但在支持安全声明之前,仍需要子组分析和更广泛的人类审查,”Nadkarni说。


(全文结束)

大健康
大健康