西弗吉尼亚大学的科学家发现,人工智能工具可以辅助急诊医生准确预测疾病,但仅限于症状典型的患者。
西弗吉尼亚大学医学院微生物学、免疫学和细胞生物学系助理教授兼WVU生物信息核心设施主任Gangqing "Michael" Hu领导了一项研究,比较了四种ChatGPT模型在进行医学诊断和解释其推理过程时的精确度和准确性。
他的研究结果发表在《科学报告》杂志上,表明需要在训练AI技术以辅助疾病诊断时加入更多不同类型的大量数据。
更多的数据可以决定AI是否能为所谓的“疑难病例”提供正确的诊断,这些病例并不表现出典型症状。例如,Hu指出,在他的研究中有三个肺炎患者没有典型的发热症状。
“在这三个病例中,所有的GPT模型都未能给出准确的诊断,”Hu说。“这使我们深入研究了医生的笔记,并注意到这些是疑难病例。ChatGPT倾向于从互联网上的不同资源获取大量信息,但这些资源可能不涵盖非典型疾病的呈现。”
该研究分析了30个公开的急诊科病例数据,出于隐私原因,这些数据不包括人口统计信息。
Hu解释说,在使用ChatGPT辅助诊断时,会上传医生的笔记,并要求工具提供其前三项诊断。结果因Hu测试的不同版本而异:GPT-3.5、GPT-4、GPT-4o和o1系列。
“当我们查看AI模型是否在其前三项诊断中给出了正确答案时,我们没有看到新版本和旧版本之间有显著改进,”他说。“但当我们查看每个模型的第一项诊断时,新版本的准确性比旧版本高出约15%到20%。”
鉴于AI模型目前在复杂和非典型病例上的表现不佳,Hu表示,当使用AI作为辅助工具时,人类监督对于高质量、以患者为中心的护理是必要的。
“我们进行这项研究并不是出于好奇心,想看看新模型是否会给出更好的结果。我们希望为涉及额外输入的未来研究建立一个基础,”Hu说。“目前,我们只输入医生的笔记。未来,我们希望通过包括图像和实验室检查结果来提高准确性。”
Hu还计划扩展他最近的一项研究结果,他在该研究中将ChatGPT-4模型应用于模拟讨论中,角色扮演物理治疗师、心理学家、营养师、人工智能专家和运动员,讨论运动康复问题。
他认为,通过采取多个AI代理互动的对话方法,这样的模型可以提高AI的诊断准确性。
“从信任的角度来看,我认为看到推理步骤非常重要,”Hu说。“在这种情况下,包括典型和非典型病例在内的高质量数据有助于建立信任。”
Hu强调,尽管ChatGPT很有前景,但它不是经过认证的医疗设备。他说,如果医疗机构在临床环境中包含图像或其他数据,AI模型将是一个开源系统,并安装在医院集群中以符合隐私法律。
该研究的其他贡献者包括来自医学院微生物学、免疫学和细胞生物学系的博士后研究员Jinge Wang和来自马里兰州蒙哥马利县的实验室志愿者Kenneth Shue,以及亚利桑那州立大学的Li Liu。
Hu指出,未来关于在急诊科使用ChatGPT的研究可以探讨增强AI解释其推理能力是否有助于分诊或决定患者的治疗方案。
(全文结束)


