聊天机器人医疗建议可靠性研究 麻省总医院-布莱根医疗系统揭示ChatGPT等诊断准确率Mass General Brigham study explores medical advice by ChatGPT, other chatbots

环球医讯 / AI与医疗健康来源:www.bostonglobe.com美国 - 英语2026-05-17 18:58:06 - 阅读时长3分钟 - 1116字
麻省总医院-布莱根医疗系统在《美国医学会杂志·网络公开》发表的研究显示,当基于基础患者信息分析症状时,ChatGPT等聊天机器人80%以上时间无法生成正确鉴别诊断列表;虽然在提供完整医疗数据后诊断准确率提升至90%以上,但研究警告患者可能因早期错误建议采取不当医疗行为,强调必须保留医生审核环节。该研究对比了21种大语言模型在29个真实病例中的表现,证实当前AI在诊断初期信息有限阶段存在显著缺陷,呼应了该医疗系统去年推出的Care Connect人工智能应用的设计理念——仅用于预问诊而非诊断决策。
聊天机器人医疗建议可靠性诊断准确率鉴别诊断人类医生监督大语言模型医疗案例CareConnect医疗决策
聊天机器人医疗建议可靠性研究 麻省总医院-布莱根医疗系统揭示ChatGPT等诊断准确率

由于许多人生病时几乎无法预约到初级保健医生,越来越多患者转向人工智能聊天机器人分析症状并确定病因。但麻省总医院-布莱根医疗系统研究人员在《美国医学会杂志·网络公开》周一发表的研究表明,人们可能需要对此保持谨慎。

该研究发现,当聊天机器人基于真实患者案例提取的基础信息分析症状时,超过80%的时间未能生成正确的可能病因列表——即所谓鉴别诊断。

研究同时指出,当提供所有相关信息后,聊天机器人的正确诊断率提升至90%以上。不过研究团队负责人警告,部分使用ChatGPT、Grok等大语言模型的用户可能依据早期阶段输出的错误医疗建议采取行动,例如在未患癌症时进行活检,或因将中风征兆误判为普通头痛而延误治疗。

"不能盲目相信聊天机器人的诊断,"哈佛医学院放射学副教授、MGB创新中心MESH孵化器执行主任马克·苏奇博士在采访中表示,"它可作为起点,但必须有人类医生介入监督。"苏奇所指的"人类"是能够面诊患者、调阅病史、开展诊断测试、逐步缩小可能性直至确诊并在紧急情况下立即启动治疗的医疗提供者。

"医生的部分职责是形成初步鉴别诊断,再通过针对性提问和体格检查等手段逐步排除可能性,"这位哈佛医学院副教授解释道,"缩小、再缩小,直至最终确诊。"

研究团队对比了21种通用大语言模型,包括ChatGPT、DeepSeek、Claude、Gemini和Grok的最新版本。研究人员逐步向每个聊天机器人输入29个已发表医疗案例的信息,这些案例涵盖心力衰竭到宫外孕等常见病症。

当仅基于年龄、性别和症状生成鉴别诊断时,聊天机器人表现欠佳。只有在研究人员提供体格检查和实验室检测结果后,诊断准确率才显著提升。

"这些模型在数据完整时能准确定名最终诊断,但在病例初期信息有限的开放阶段表现薄弱,"哈佛医学院MD-PhD学生、研究主要作者Arya Rao指出。

鉴于数千名MGB患者因初级保健医生短缺而缺乏固定医师,该州最大医疗系统去年九月推出了名为Care Connect的人工智能应用。该聊天机器人提供7×24小时问询服务,可向患者提问、调阅医疗记录,并最快在半小时内安排视频问诊。

MGB数字患者体验副总裁拉杰什·帕特尔博士强调,该系统的聊天机器人与公众自行求诊的工具有本质区别:"Care Connect中的AI聊天机器人仅用于医疗预问诊以加速预约流程——它绝不进行诊断。患者始终由真实临床医生接诊,由医生负责诊断、治疗和随访。这一模式恰好印证了本研究结论:医生参与仍是医疗决策的关键。"

【全文结束】