新研究警告AI聊天机器人提供医疗建议存在显著风险 - AI与医疗健康

新研究警告AI聊天机器人提供医疗建议存在显著风险New study warns of risks in AI chatbots giving medical advice | University of Oxford

环球医讯 / AI与医疗健康来源：www.ox.ac.uk英国 - 英语2026-03-02 23:38:20 - 阅读时长4分钟 - 1580字

牛津大学主导的新研究揭示，尽管大型语言模型在标准化医学测试中表现优异，但在真实医疗场景中为公众提供决策支持时存在严重隐患：用户使用LLMs并未比依赖网络搜索或个人判断的传统方法做出更准确的医疗决策；研究通过1300人随机对照试验发现，模型常因问题微小差异给出矛盾建议，且混合正确与错误信息导致用户难以辨别最佳行动方案；专家警告当前评估体系脱离实际交互复杂性，呼吁仿照新药临床试验标准，在真实世界对AI系统进行严格测试，以避免错误诊断延误危急救治，强调患者需警惕向聊天机器人咨询症状可能引发的健康风险。

新研究警告AI聊天机器人提供医疗建议存在显著风险

这项针对大型语言模型（LLMs）辅助公众医疗决策的最大规模用户研究发现，这些模型因其提供不准确且不一致信息的倾向，对寻求医疗建议的人群构成风险。研究成果已发表在《自然·医学》杂志上。

由牛津大学互联网研究所和牛津大学纳菲尔德初级保健卫生科学系主导、联合MLCommons及其他机构开展的新研究表明，大型语言模型的承诺与其实用性之间存在重大差距。尽管这些模型在标准化医学知识测试中表现出色，但对寻求自身症状帮助的真实用户而言却潜藏风险。

尽管炒作不断，人工智能尚未准备好承担医师角色。患者必须意识到，向大型语言模型咨询自身症状可能非常危险——它会给出错误诊断，且无法识别何时需要紧急救治。

丽贝卡·佩恩博士，纳菲尔德初级保健卫生科学系

研究中，参与者基于医生设计的特定医疗场景信息，使用LLMs识别健康问题并决定适当行动方案（如就诊全科医生或前往医院）。

关键发现表明，LLMs并不优于传统方法：使用LLMs的参与者并未比依赖网络搜索或个人判断的对照组做出更优决策。

研究还揭示了双向沟通障碍：参与者常不清楚需向LLMs提供哪些信息才能获得准朁建议，而收到的回应往往混杂优质与劣质建议，使用户难以辨别最佳行动路径。

此外，现有评估方法存在缺陷：当前对LLMs的测评未能反映与人类用户交互的复杂性。如同新药临床试验，LLM系统应在部署前进行真实世界测试。

"这些发现凸显了在医疗等敏感高风险领域构建真正支持人类的AI系统的难度，"研究首席医疗从业者、牛津大学纳菲尔德初级保健卫生科学系及班戈大学全科医生丽贝卡·佩恩博士表示，"尽管炒作不断，人工智能尚未准备好承担医师角色。患者必须意识到，向大型语言模型咨询自身症状可能非常危险——它会给出错误诊断，且无法识别何时需要紧急救治。"

研究人员开展了涉及近1300名在线参与者的随机对照试验，要求他们基于个人化医疗场景（由医生设计的详细案例，范围从年轻男子夜间聚会后突发严重头痛，到新妈妈持续气短乏力）识别潜在健康问题并推荐行动方案。

我们不能仅依赖标准化测试判断这些系统是否适合公众使用。正如新药需要临床试验，AI系统必须通过多样化真实用户的严格测试，才能理解其在医疗等高风险场景中的真实能力。

亚当·马迪副教授，牛津大学互联网研究所

一组参与者使用LLM辅助决策，对照组则使用其他传统信息源。研究人员随后评估参与者识别医疗问题的准确性及推荐适当后续步骤（如就诊全科医生或急诊科）的水平，并将结果与不涉及真实用户的LLM标准测试策略进行对比。对比结果令人震惊：在基准测试中表现优异的模型，在与人类交互时出现失误。

研究发现三类挑战证据：

用户常不清楚应向LLM提供哪些信息
LLMs对问题微小变化给出截然不同的答案
LLMs常混杂优质与劣质信息，用户难以辨别

牛津大学互联网研究所博士生、首席作者安德鲁·比恩表示："设计针对大型语言模型的可靠测试对理解如何利用这项新技术至关重要。本研究证明，即使顶级LLM在与人类交互时也面临挑战。我们希望这项工作能推动更安全、更实用AI系统的开发。"

资深作者亚当·马迪副教授（牛津大学互联网研究所）指出："基准分数与真实表现之间的脱节，应为AI开发者和监管机构敲响警钟。我们近期关于基准结构效度的研究表明，许多评估未能测量其声称的内容，而本研究恰恰证明了其重要性。我们不能仅依赖标准化测试判断这些系统是否适合公众使用。正如新药需要临床试验，AI系统必须通过多样化真实用户的严格测试，才能理解其在医疗等高风险场景中的真实能力。"

题为《大型语言模型中的临床知识无法转化为人类交互》的研究已发表在《自然·医学》杂志上。

【全文结束】