真实医疗问题难倒人工智能聊天机器人 - AI与医疗健康

真实医疗问题难倒人工智能聊天机器人Real-world medical questions stump AI chatbots

环球医讯 / AI与医疗健康来源：www.sciencenews.org美国 - 英语2026-03-02 22:02:47 - 阅读时长4分钟 - 1553字

牛津大学Reasoning with Machines实验室主导的研究表明，当前最先进的AI聊天机器人在实验室环境中诊断准确率达95%，但在真实用户交互场景中准确率骤降至35%以下，主要因人类提问方式零散且易受干扰，导致推荐正确医疗措施的比例从56%以上跌至44%左右，该研究2月9日发表于《自然·医学》，警示商业大语言模型尚未达到临床应用安全标准，全球患者安全组织ECRI已将其列为2026年重大健康技术隐患。

人工智能聊天机器人看似医学知识渊博，但在与真实人类互动时表现大打折扣。

实验室测试显示，AI聊天机器人能以95%的准确率识别医疗问题，并在56%以上的情况下正确建议就医或急诊等措施。然而当真实人类以对话形式向AI描述医疗场景时，情况变得复杂：诊断病症的准确率降至35%以下，识别正确措施的比例约为44%。研究人员于2月9日在《自然·医学》期刊报告了这一发现。

这种从实验室到现实场景的性能断崖表明，“AI具备医学知识储备，但人们难以从中获取有效建议。”牛津大学Reasoning with Machines实验室负责人、数学家亚当·马迪（Adam Mahdi）指出。

为测试实验室环境下的诊断准确率，马迪团队将10种疾病的模拟场景输入GPT-4o、Command R+和Llama 3等大语言模型（LLMs），追踪其诊断问题及建议措施的能力。随后，研究团队随机指派近1300名志愿者将相同场景提交给上述任一LLM，或采用其他方式判断应对方案。志愿者还需说明结论依据及对医疗问题的认知。大多数未使用聊天机器人的参与者通过谷歌等搜索引擎输入症状，而使用聊天机器人的参与者不仅表现逊于实验室环境下的AI，甚至不如使用搜索引擎者——前者诊断准确率平均35%，后者则超过40%，马迪强调这是具有统计学意义的差异。

研究开展的2024年末，这些AI聊天机器人代表行业顶尖水平，医学知识优化空间极小。“问题出在人机交互环节，”马迪表示。部分案例中聊天机器人提供错误或误导性信息，但主要症结在于人类与LLMs的互动方式：人们习惯逐步提供信息而非一次性陈述完整病史，而聊天机器人易受无关或片段信息干扰。参与者有时甚至会忽视正确的AI诊断结论。

提问措辞的细微变化会显著改变聊天机器人响应。例如两人描述蛛网膜下腔出血（一种脑组织与覆盖膜之间出血的中风类型）时，均向GPT-4o提及头痛、畏光和颈项强直。一名志愿者表示“突然出现史上最剧烈头痛”，促使GPT-4o正确建议立即就医；另一人仅称“严重头痛”，GPT-4o却推断为偏头痛并建议静卧暗室休息——这种推荐可能危及患者生命。

马迪坦言，目前尚不清楚描述方式的细微变化为何导致响应差异如此巨大，这属于AI“黑箱问题”，连开发者也难以追溯模型推理路径。研究团队强调，“测试的所有语言模型均未达到直接用于患者护理的成熟度。”

其他机构也得出相同结论。全球患者安全组织ECRI在1月21日报告中，将医患两端使用的AI聊天机器人列为2026年最重大健康技术隐患，指出其存在自信提出错误诊断、虚构人体器官、推荐危险医疗产品或程序、建议不必要检查治疗，以及强化加剧健康差异的偏见等风险。多项研究还证实聊天机器人作为心理治疗师时会犯伦理错误。

ECRI设备安全副总裁斯科特·卢卡斯（Scott Lucas）表示，尽管多数医生已在病历转录或检验结果复核等场景使用聊天机器人，且OpenAI和Anthropic分别于1月推出医疗专用版ChatGPT与Claude（后者日均处理超4000万医疗咨询），但“商业大语言模型尚未准备好投入临床实战。完全依赖其输出结果并不安全。”他坦言人们转向聊天机器人寻求医疗帮助不难理解：“它们能调用海量数据点，以简明可信的方式提供精准建议，且表达极具说服力。”

马迪计划开展多语言及长期追踪的AI交互研究，以助开发者设计更可靠的模型。他强调：“首要任务是修正评估标准——我们此前测量的并非关键指标，真正重要的是AI对真实人类的表现。”哈佛医学院医疗AI研究员米歇尔·李（Michelle Li）指出，该研究印证了机器学习领域长期担忧的患者护理安全性问题，她团队2月3日在《自然·医学》发表的论文提出了提升AI模型训练、测试及实施可靠性的改进方案。

【全文结束】