人工智能聊天机器人看似医学知识渊博,但在与真实人类互动时表现大打折扣。
实验室测试显示,AI聊天机器人能以95%的准确率识别医疗问题,并在56%以上的情况下正确建议就医或急诊等措施。然而当真实人类以对话形式向AI描述医疗场景时,情况变得复杂:诊断病症的准确率降至35%以下,识别正确措施的比例约为44%。研究人员于2月9日在《自然·医学》期刊报告了这一发现。
这种从实验室到现实场景的性能断崖表明,“AI具备医学知识储备,但人们难以从中获取有效建议。”牛津大学Reasoning with Machines实验室负责人、数学家亚当·马迪(Adam Mahdi)指出。
为测试实验室环境下的诊断准确率,马迪团队将10种疾病的模拟场景输入GPT-4o、Command R+和Llama 3等大语言模型(LLMs),追踪其诊断问题及建议措施的能力。随后,研究团队随机指派近1300名志愿者将相同场景提交给上述任一LLM,或采用其他方式判断应对方案。志愿者还需说明结论依据及对医疗问题的认知。大多数未使用聊天机器人的参与者通过谷歌等搜索引擎输入症状,而使用聊天机器人的参与者不仅表现逊于实验室环境下的AI,甚至不如使用搜索引擎者——前者诊断准确率平均35%,后者则超过40%,马迪强调这是具有统计学意义的差异。
研究开展的2024年末,这些AI聊天机器人代表行业顶尖水平,医学知识优化空间极小。“问题出在人机交互环节,”马迪表示。部分案例中聊天机器人提供错误或误导性信息,但主要症结在于人类与LLMs的互动方式:人们习惯逐步提供信息而非一次性陈述完整病史,而聊天机器人易受无关或片段信息干扰。参与者有时甚至会忽视正确的AI诊断结论。
提问措辞的细微变化会显著改变聊天机器人响应。例如两人描述蛛网膜下腔出血(一种脑组织与覆盖膜之间出血的中风类型)时,均向GPT-4o提及头痛、畏光和颈项强直。一名志愿者表示“突然出现史上最剧烈头痛”,促使GPT-4o正确建议立即就医;另一人仅称“严重头痛”,GPT-4o却推断为偏头痛并建议静卧暗室休息——这种推荐可能危及患者生命。
马迪坦言,目前尚不清楚描述方式的细微变化为何导致响应差异如此巨大,这属于AI“黑箱问题”,连开发者也难以追溯模型推理路径。研究团队强调,“测试的所有语言模型均未达到直接用于患者护理的成熟度。”
其他机构也得出相同结论。全球患者安全组织ECRI在1月21日报告中,将医患两端使用的AI聊天机器人列为2026年最重大健康技术隐患,指出其存在自信提出错误诊断、虚构人体器官、推荐危险医疗产品或程序、建议不必要检查治疗,以及强化加剧健康差异的偏见等风险。多项研究还证实聊天机器人作为心理治疗师时会犯伦理错误。
ECRI设备安全副总裁斯科特·卢卡斯(Scott Lucas)表示,尽管多数医生已在病历转录或检验结果复核等场景使用聊天机器人,且OpenAI和Anthropic分别于1月推出医疗专用版ChatGPT与Claude(后者日均处理超4000万医疗咨询),但“商业大语言模型尚未准备好投入临床实战。完全依赖其输出结果并不安全。”他坦言人们转向聊天机器人寻求医疗帮助不难理解:“它们能调用海量数据点,以简明可信的方式提供精准建议,且表达极具说服力。”
马迪计划开展多语言及长期追踪的AI交互研究,以助开发者设计更可靠的模型。他强调:“首要任务是修正评估标准——我们此前测量的并非关键指标,真正重要的是AI对真实人类的表现。”哈佛医学院医疗AI研究员米歇尔·李(Michelle Li)指出,该研究印证了机器学习领域长期担忧的患者护理安全性问题,她团队2月3日在《自然·医学》发表的论文提出了提升AI模型训练、测试及实施可靠性的改进方案。
【全文结束】

