OpenAI希望成为您口袋中的“24/7世界级医生”OpenAI Wants to be a ‘24/7 World-Class Doctor’ in Your Pocket

环球医讯 / AI与医疗健康来源:analyticsindiamag.com美国 - 英文2025-05-13 22:00:00 - 阅读时长5分钟 - 2178字
OpenAI推出了一项新的基准测试HealthBench,旨在评估AI系统在处理复杂医疗对话方面的能力。该基准测试涵盖了七个关键领域,包括紧急护理、不确定性管理和全球健康等。通过与来自60个国家的262名医生合作,HealthBench包含了5,000个真实的医疗相关对话,并为每个对话配有一个由医生创建的评分标准。
OpenAIHealthBenchAI医疗健康讨论医疗对话评估ChatGPT健康问题解答医疗AI谷歌医疗模型AI科学研究
OpenAI希望成为您口袋中的“24/7世界级医生”

OpenAI正在医疗领域进行重大推进,发布了名为HealthBench的新基准,旨在评估AI系统在健康方面的表现。

该基准旨在帮助大型语言模型(LLMs)支持患者和临床医生进行可信、有意义且持续改进的健康讨论。HealthBench关注七个关键领域,包括紧急护理、不确定性的管理以及全球健康。

“如果你能随时免费拥有一位世界级的医生在你的口袋里,会怎么样?这就是AI在医疗领域的承诺,但错误可能是灾难性的。因此,OpenAI推出了HealthBench,这是一个新的基准测试,用于评估AI模型如何处理真实复杂的医疗对话,”Forward Future的CEO Matthew Berman在X上写道。

HealthBench是由来自60个国家的262名医生共同开发的,包含5,000个真实的医疗相关对话,每个对话都配有一个由医生创建的评分标准。OpenAI在其博客中分享了他们使用HealthBench来评估其最新模型在医疗任务上的表现。根据该公司表示,最近的模型进步迅速,o3在测试中表现优于其他模型,包括Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月版本)。

OpenAI还提到,小型模型最近也有了显著的改进。例如,GPT-4.1 nano的表现优于2024年8月的GPT-4o模型,尽管它的成本只有后者的四分之一。

与医生的书面回答相比,LLMs在许多情况下写出了更好的答案。到今年4月,最新的模型已经达到了一个水平,即医生的回答不再能提高答案的质量。

在线上,许多用户分享了ChatGPT如何帮助他们理解复杂的健康问题,从慢性背痛到不明原因的下颌问题都有涉及。

“在过去几个月里,我的家庭遇到了六次与健康相关的事件,ChatGPT比医生更有帮助……”前Wired杂志员工Joe Flaherty在X上发帖说。

“ChatGPT在我身上表现得比人类医生更好。它诊断出我有一种情况,并推荐了正确的治疗方法,而两位人类专家都没有做到这一点。这是LLMs的理想用例,因为它需要知识和模式匹配,”另一位用户在X上说。

然而,专家警告不要过度依赖AI。“使用人工智能进行诊断甚至开处方时,必须非常谨慎,因为缺少物理检查,”班加罗尔Sri Jayadeva心血管科学与研究所的高级心脏病专家CN Manjunath博士在接受AIM采访时说。

他进一步强调,尽管技术在医疗保健中的广泛应用,物理评估仍然是准确诊断的基础。虽然药物可以缓解症状,但他建议始终与合格的医疗从业者跟进以获得全面的护理。他解释说,一旦做出特定诊断,患者可以继续使用ChatGPT进行后续咨询。

OpenAI对医疗保健日益增长的兴趣反映在其招聘职位上,其中包括健康AI研究工程师和医疗软件工程师。

这一发展是在OpenAI任命Fidji Simo为应用部门首席执行官之后发生的,这使得Sam Altman能够更多地专注于研究、计算和安全。Altman多次重申,他对AI在科学发现方面的潜力感到最兴奋。

“目前我对AI在科学领域的应用最为兴奋。我相信,使世界和人们的生活变得越来越好的最重要驱动力是新的科学发现,”Altman在最近的一次TED演讲中说。他还补充说,他们从科学家那里听到,最新的AI模型让他们变得更加高效,并影响了他们的发现能力。

“我深信AGI可以通过扩大可信赖的医疗访问范围并加速长寿研究来延长人类寿命,”OpenAI研究员Karina Nguyen在X上发帖说。

即使是因激进的长寿和抗衰老方法而闻名的Bryan Johnson也对OpenAI的发展发表了评论。他指出,借助参考材料的AI辅助医生的表现优于没有参考材料的人类医生。到4月份,这些回复已经如此强大,以至于医生无法再改进它们。

谷歌也在加强医疗AI

OpenAI并不是唯一一家关注医疗保健的公司。谷歌最近推出了TxGemma,这是一套新的开源语言模型,旨在支持治疗开发。这些模型旨在通过将LLM功能应用于生物医学数据来改进诸如药物候选评估、分子属性预测和临床试验结果估计等任务。

2024年,谷歌开发了Med-Gemini,这是一组下一代医疗模型,结合了Gemini的先进多模态和推理能力,并通过对去标识化的医疗数据进行微调来实现。

为了支持护理提供者,谷歌在2023年推出了MedLM和Search for Healthcare。这些工具旨在处理医疗查询,并在Google Cloud Vertex AI平台上可用。它们帮助临床医生做出更明智的决策,并使患者能够获得更准确和个性化的护理。

Anthropic首席执行官Dario Amodei,作为OpenAI的竞争对手,也表达了对AI在生物学领域的潜力的兴奋。“我乐观地认为,困扰我们数千年的疾病——如癌症、阿尔茨海默病和衰老本身——可能得到治疗,”他说。

在他的最近一篇文章《爱之机器》中,Amodei概述了一个未来,在这个未来中,AI可以“使我们的寿命翻倍,治愈所有疾病,并创造前所未有的全球经济财富”。Anthropic最近推出了AI for Science Program,通过向研究人员提供其API访问权限来支持科学研究和发现。该计划为高影响力项目提供免费API信用额度,重点是生物学和生命科学。


(全文结束)

大健康
大健康