AI工具在诊断非典型急诊病例时显示局限性AI tools show limitations in diagnosing atypical emergency room cases

环球医讯 / AI与医疗健康来源:www.news-medical.net美国 - 英语2025-05-24 00:23:00 - 阅读时长3分钟 - 1367字
西弗吉尼亚大学的研究发现,人工智能工具在辅助急诊医生进行疾病预测时,仅对具有典型症状的患者有效。对于表现出非典型症状的复杂病例,AI的准确性较低,需要更多不同类型的数据来提高其诊断能力。
AI工具疾病诊断非典型病例ChatGPT医学诊断数据人类监督体育康复医疗设备患者治疗决策健康
AI工具在诊断非典型急诊病例时显示局限性

西弗吉尼亚大学的科学家们发现,人工智能工具可以辅助急诊医生准确预测疾病,但仅限于具有典型症状的患者。

Gangqing "Michael" Hu博士是西弗吉尼亚大学医学院微生物学、免疫学和细胞生物学系的助理教授,也是WVU生物信息学核心设施的主任。他领导了一项研究,比较了四个ChatGPT模型在做出医学诊断和解释其推理过程中的精确度和准确性。

他的研究结果发表在《科学报告》杂志上,表明需要在训练AI技术以辅助疾病诊断时纳入更多不同类型的大量数据。

更多的数据可以决定AI是否能为所谓的“挑战性病例”提供正确的诊断,这些病例并不表现出典型的症状。例如,Hu提到研究中的三个案例,这些患者患有肺炎但没有典型的发热症状。

在这三个病例中,所有GPT模型都未能给出准确的诊断。这使我们深入研究了医生的记录,并注意到这些是非典型病例的模式。ChatGPT倾向于从互联网上的各种资源获取信息,但这些资源可能无法涵盖非典型的疾病表现。

——Gangqing "Michael" Hu,西弗吉尼亚大学医学院微生物学、免疫学和细胞生物学系助理教授

该研究分析了来自30个公共急诊部门的病例数据,出于隐私原因,这些数据不包括人口统计信息。

Hu解释说,在使用ChatGPT辅助诊断时,会上传医生的记录,并要求工具提供其前三名诊断。测试的不同版本包括GPT-3.5、GPT-4、GPT-4o和o1系列。

“当我们查看AI模型是否在其前三名诊断中给出了正确诊断时,我们没有看到新版本与旧版本之间有显著改进,”他说。“但当我们查看每个模型的第一位诊断时,新版本的准确性比旧版本高约15%到20%。”

鉴于AI模型在处理复杂和非典型病例时的当前低性能,Hu表示,当使用AI作为辅助工具时,高质量、以患者为中心的护理仍需要人类监督。

“我们进行这项研究并不是出于好奇心,想看看新模型是否会给出更好的结果。我们希望为未来涉及额外输入的研究建立一个基础,”Hu说。“目前,我们只输入医生的笔记。将来,我们希望通过包括图像和实验室检测结果来提高准确性。”

Hu还计划扩展他最近的一项研究发现,他在该研究中应用了ChatGPT-4模型,模拟了一个由物理治疗师、心理学家、营养师、人工智能专家和运动员组成的小组讨论体育康复的话题。

他说,他认为像这样的模型可以通过多个人工智能代理之间的对话方法来提高AI的诊断准确性。

“从信任的角度来看,我认为看到推理步骤非常重要,”Hu说。“在这种情况下,高质量的数据,包括典型和非典型病例,有助于建立信任。”

Hu强调,尽管ChatGPT很有前景,但它不是经过认证的医疗设备。他说,如果医疗服务提供者要在临床环境中包含图像或其他数据,AI模型将是一个开源系统,并安装在医院集群中以符合隐私法律。

参与该研究的其他人员包括医学院微生物学、免疫学和细胞生物学系的博士后研究员Jinge Wang和来自马里兰州蒙哥马利县的实验室志愿者Kenneth Shue,以及亚利桑那州立大学的Li Liu。这项工作得到了美国国立卫生研究院和国家科学基金会的支持。

Hu表示,未来关于在急诊科使用ChatGPT的研究可能会探讨增强AI解释其推理的能力是否有助于分诊或患者治疗决策。


(全文结束)

大健康
大健康