牛津研究警告：AI聊天机器人提供“危险”医疗建议 - AI与医疗健康

牛津研究警告：AI聊天机器人提供“危险”医疗建议AI Chatbots Giving ‘Dangerous’ Medical Advice, Oxford Study Warns - Decrypt

环球医讯 / AI与医疗健康来源：decrypt.co英国 - 英语2026-02-27 23:21:18 - 阅读时长2分钟 - 849字

牛津大学发表于《自然·医学》的研究揭示，尽管大语言模型在标准化医学知识测试中表现优异，但在处理个性化医疗场景时存在严重缺陷，可能向用户提供错误诊断、忽视紧急医疗需求并给出危险建议；研究显示1300名参与者使用AI模型的自诊准确率不优于网络搜索或个人判断，专家强调医学诊断需动态交互能力，当前AI仅适合辅助文书工作如转录会诊记录，绝不能替代医生角色，呼吁建立严格评估体系确保医疗AI安全应用。

错误答案、混淆建议与个性化信息处理困难困扰医疗AI聊天机器人

研究表明，AI聊天机器人正努力成为医疗保健领域的重大突破，它们在标准化测试中表现出色，为医疗问题提供建议。但发表于《自然·医学》的新研究显示，这些技术不仅远未达到应用标准，甚至可能带来危险。

由牛津大学多个团队主导的研究发现大型语言模型存在显著缺陷：尽管在医学知识理解方面技术先进，但在帮助用户解决个人医疗问题时严重不足。

“尽管存在大量炒作，AI尚未准备好承担医生角色，”该研究首席医疗专家丽贝卡·佩恩博士在公布研究成果的声明中表示，“患者必须意识到，向大语言模型咨询症状可能十分危险，它会给出错误诊断，且无法识别紧急医疗需求。”

研究邀请1300名参与者使用OpenAI、Meta和Cohere开发的AI模型识别健康状况。研究人员设计了一系列由医生制定的医疗场景，要求AI系统指导用户下一步处理措施。结果显示，AI的决策准确率不优于传统自诊方法，例如网络搜索甚至个人判断。

研究还发现用户与AI存在信息断层：用户难以判断大语言模型需要哪些信息才能提供准确建议。他们同时收到优质和劣质建议，导致后续行动难以确定。

佩恩博士向Decrypt表示：“作为医生，正确诊断远不止于事实记忆，医学既是科学也是艺术。倾听、探询、澄清、确认理解及引导对话至关重要。医生主动挖掘相关症状，因为患者常不知哪些细节重要。”她解释道，研究证明大语言模型“尚不可靠地管理与非专家的动态交互”。

研究团队总结认为，当前AI完全不适合提供医疗建议，若要在医疗领域正确应用，必须建立新的评估体系。不过，这并不意味着AI在医疗领域毫无价值。

佩恩指出，虽然大语言模型“在医疗领域确有作用”，但应定位为“秘书而非医生”。该技术擅长“总结和重组已接收的信息”，目前已被用于诊室“转录会诊内容，并将信息重新包装为转诊 specialist 的信函、患者信息表或医疗记录”。

团队强调，他们并不反对在医疗中应用AI，但希望此项研究能引导技术朝着正确方向发展。

【全文结束】