新研究警示AI聊天机器人向患者提供医疗建议的风险 - AI与医疗健康

新研究警示AI聊天机器人向患者提供医疗建议的风险New study warns risks of AI chatbots giving medical advice to patients

环球医讯 / AI与医疗健康来源：www.openaccessgovernment.org英国 - 英语2026-03-02 05:56:34 - 阅读时长3分钟 - 1383字

牛津大学主导并发表在《自然医学》上的重大研究揭示，尽管AI聊天机器人在标准化医疗测试中表现良好，但在真实患者场景中常提供不准确、不一致且潜在危险的医疗建议，研究通过对比实验发现其决策效果不优于传统方法，且人机交互存在显著不一致性，三位主要研究者强调现有评估方法未能反映医疗场景的复杂性，明确指出患者依赖AI诊断可能面临错误判断和延误急救的风险，呼吁对AI系统实施类似药物临床试验的严格真实场景测试以确保高风险医疗环境中的安全性。

牛津大学的一项重大研究发现，AI聊天机器人可能提供不准确、不一致且潜在危险的医疗建议，凸显了其在现实应用中的局限性

这项发表在《自然医学》(Nature Medicine)上的牛津大学主导研究发现，尽管AI聊天机器人在标准化医疗测试中表现良好，但它们经常向真实患者提供不安全或错误的建议。研究结果明确表明，AI在现实环境中尚未达到足以信赖的医疗指导或决策水平。

研究如何在真实患者场景中测试AI聊天机器人

大型语言模型(LLMs)是一种基于深度学习的人工智能算法，经过训练可以理解和生成自然语言，也被称为AI聊天机器人。

由牛津互联网研究所和牛津大学Nuffield初级保健健康科学系领导的研究团队进行了最大规模的用户研究，探讨大型语言模型(LLMs)以及公众如何利用它们辅助医疗决策。

研究参与者使用AI聊天机器人识别健康状况并决定适当的行动方案，例如看全科医生或前往医院，这些决策基于医生整理的信息。示例医疗场景包括一名年轻男子在一夜狂欢后出现严重头痛，以及一位新妈妈感到精疲力尽。

在研究中，一组参与者使用聊天机器人辅助决策，而对照组则使用其他传统信息来源。

研究人员评估了参与者识别可能医疗问题的准确性以及最合适的下一步行动，例如就诊全科医生或前往急诊科。研究结果与标准LLM测试策略进行了比较，揭示了基准测试与人际互动之间的显著差异。

为什么AI聊天机器人还不足以取代医生

研究发现，AI聊天机器人并不比传统方法更有效。使用LLMs的参与者并未比依赖在线搜索或个人判断的参与者做出更安全或更准确的决策。

参与者与AI聊天机器人之间的沟通也存在不一致性。参与者经常不清楚需要向LLMs提供哪些信息才能获得准确建议，且回复内容多变，使得下一步行动难以确定。

研究人员还发现，现有的AI聊天机器人评估方法未能充分反映人机交互的复杂性。

"这些发现突显了在医疗等敏感且高风险领域构建真正能支持人们的AI系统的难度，"研究的主要医疗从业者、全科医生丽贝卡·佩恩博士(Dr Rebecca Payne)表示（牛津大学Nuffield初级保健健康科学系和班戈大学）。

"尽管有各种炒作，AI尚未准备好承担医生的角色。患者需要意识到，向大型语言模型咨询症状可能是危险的，可能导致错误诊断并无法识别何时需要紧急帮助。"

主要作者、牛津互联网研究所博士生安德鲁·比恩(Andrew Bean)表示："为大型语言模型设计稳健的测试是理解如何利用这项新技术的关键。在这项研究中，我们展示了即使对顶级LLMs来说，与人类互动也是一个挑战。我们希望这项工作能促进开发更安全、更有用的AI系统。"

资深作者、牛津互联网研究所副教授亚当·马迪(Associate Professor Adam Mahdi)表示："基准测试分数与现实世界表现之间的脱节应该成为AI开发者和监管机构的警钟。我们最近关于基准测试中构建效度的研究表明，许多评估未能测量它们声称要测量的内容，而这项研究恰恰证明了这一点为何重要。我们不能仅依赖标准化测试来确定这些系统对公众使用是否安全。正如我们对新药物要求进行临床试验一样，AI系统也需要通过多样化的真实用户进行严格测试，以了解其在医疗等高风险环境中的真实能力。"

【全文结束】