低成本AI聊天机器人革新医疗资源匮乏地区的诊断方式Cheap AI chatbots transform medical diagnoses in places with limited care

环球医讯 / AI与医疗健康来源:www.nature.com卢旺达和巴基斯坦 - 英语2026-02-08 09:28:20 - 阅读时长3分钟 - 1357字
2026年2月发表于《自然-健康》杂志的两项突破性实地研究表明,低成本大型语言模型在卢旺达和巴基斯坦医疗资源匮乏地区显著提升诊断准确率。卢旺达研究证实聊天机器人在11项评估指标上全面超越当地临床医生,巴基斯坦随机对照试验显示使用GPT-4o辅助诊断的医师诊断推理得分达71%,较常规资源使用者的43%提升63%。这些模型单次响应成本仅0.0035美元,可24小时提供服务,且能用卢旺达语交流,为中低收入国家解决医生短缺问题提供新路径,但专家警示需警惕模型可能遗漏的"警示信号"和上下文因素,强调人机协同的重要性。
健康低成本AI聊天机器人医疗资源匮乏地区诊断方式大型语言模型中低收入国家临床医生诊断成功率社区健康工作者卢旺达巴基斯坦诊断准确率
低成本AI聊天机器人革新医疗资源匮乏地区的诊断方式

大型语言模型(LLMs)已能通过研究生医学考试并在受控基准测试中协助临床医生诊断。但在医生短缺、患者众多且资源有限的真实医疗环境中,它们是否同样有效?

2月6日发表在《自然-健康》杂志上的两项研究证明它们完全胜任。研究表明,低成本的大型语言模型可提升诊断成功率,甚至在卢旺达和巴基斯坦的医疗环境中超越受训临床医生。

在卢旺达,聊天机器人的答案在所有评估指标上均优于当地临床医生。巴基斯坦研究中,借助大型语言模型辅助诊断的医师平均诊断推理得分达71%,而使用常规资源的医师仅为43%。

英国牛津大学人工智能伦理研究所研究主任卡罗琳·格林表示:"这些论文凸显了大型语言模型如何支持中低收入国家临床医生提升医疗水平。"

真实世界的复杂性

卢旺达研究测试了大型语言模型能否在四个地区的资源匮乏医疗系统中向患者提供准确临床信息。研究合著者、总部位于伦敦的健康公平全球非营利组织PATH首席人工智能官比拉勒·马廷指出,当地普遍问题是医生护士不足,多数患者由培训有限的社区工作者接诊并分诊。

马廷团队让约100名社区健康工作者整理出5600多个常见临床问题。研究人员将五个大型语言模型对其中约500个问题的回答,与当地受训临床医生的回答进行对比。按5分制评分显示,所有大型语言模型在11项指标上均优于临床医生,这些指标包括与既定医学共识的一致性、问题理解度以及回答导致伤害的可能性。团队还证实模型能用卢旺达国语基尼亚卢旺达语回答约100个问题。

马廷指出,大型语言模型还有另一优势:社区健康工作者可24小时随时咨询,而医生无法做到。模型单次响应成本也低500倍——医生生成答案平均5.43美元,护士3.80美元,而大型语言模型在英语中仅0.0035美元,基尼亚卢旺达语中0.0044美元。

波士顿贝斯以色列女执事医疗中心临床与AI研究员亚当·罗德曼表示,该研究"表明商用大型语言模型能对常见问题提供医学和文化上恰当的回答"。但他对将大型语言模型与人类表现直接比较持保留态度,认为这种书面答案评估机制适合测量模型性能,但对人类表现的衡量效果较差。

诊断准确率提升

在巴基斯坦,由拉合尔管理科学大学计算机科学家伊桑·卡齐领导的研究团队发现,大型语言模型可在资源匮乏的医疗环境中提升诊断准确率。卡齐表示,当地医疗专家短缺和庞大患者量导致大量诊断错误。

卡齐团队开展随机对照试验,58名持证医师接受20小时培训,学习如何利用大型语言模型辅助诊断患者症状,并警惕程序可能产生的错误或"幻觉"。

在临床案例评审中,使用GPT-4o大型语言模型的医师诊断准确率显著优于仅使用PubMed和网络搜索的医师。前者平均诊断推理得分71%,后者仅43%。

AI可帮助医生护士在资源有限诊所接诊更多患者

二次分析发现,单独运行的大型语言模型得分甚至高于人机协作的医师。但存在例外:31%的病例中,医师表现优于AI中位数。"这些病例涉及'警示信号'和上下文因素,大型语言模型似乎未能识别,"卡齐解释道。

卡齐预计结果适用于其他国家,但强调需用其他聊天机器人重复验证。"这项工作开辟了新途径,最终将推动AI与医疗更安全有效的融合,"他表示。

【全文结束】