在一项小型随机临床试验中,OpenAI 的 ChatGPT 在诊断患者医疗状况方面表现出色,超过了医生的表现。这项研究于2023年11月29日至12月29日在美国的三所学术医学中心进行,结果于2024年11月发表在同行评审的《JAMA Network Open》上。
该研究旨在探讨大型语言模型(LLM)人工智能是否能增强医疗从业人员的诊断推理能力,相比传统资源是否有优势。共有50名医生参与了这项临床试验,其中包括26名主治医生和24名住院医生,他们均在美国接受培训,专长于家庭医学、内科和急诊医学。医生被分为两组,每组25人。每组有60分钟的时间来审查最多6个临床案例或医疗报告。一组可以访问生成式AI聊天机器人,另一组则可以访问传统在线资源。
尽管研究结果显示,使用聊天机器人的医生与使用传统资源的医生之间没有显著差异,但波士顿贝斯以色列女执事医疗中心的亚当·罗德曼博士(Dr. Adam Rodman)发现,ChatGPT 在医疗诊断方面的平均得分为90%,而使用ChatGPT的医生得分76%,比使用传统资源的医生高出两个百分点,后者得分为74%。
起初,参与者对AI聊天机器人的诊断推理并不信服。“当AI告诉他们一些他们不同意的事情时,他们不会听从AI的意见。”罗德曼博士在接受《纽约时报》采访时说。通过深入查看数据,包括ChatGPT的消息记录和医生的反馈,他发现了这一结果。
这项研究表明,更多的类似研究将有助于医疗领域利用AI的潜力,改善临床诊断。医疗诊断错误时有发生,可能会对患者造成伤害。然而,医疗AI可以作为有效的辅助工具,因为它能够提供类似人类的响应,解决复杂问题,并进行临床推理。它还提供了详细的患者病史回顾。不过,研究建议,在现阶段,最好仍需人类参与,而不是让计算机取代医生。
查看我们对ChatGPT与流行的Perplexity聊天机器人的对比评测。
(全文结束)


