牛津研究警告:AI聊天机器人提供“危险”医疗建议AI Chatbots Giving ‘Dangerous’ Medical Advice, Oxford Study Warns - Decrypt

环球医讯 / AI与医疗健康来源:decrypt.co英国 - 英语2026-02-27 23:21:18 - 阅读时长2分钟 - 849字
牛津大学发表于《自然·医学》的研究揭示,尽管大语言模型在标准化医学知识测试中表现优异,但在处理个性化医疗场景时存在严重缺陷,可能向用户提供错误诊断、忽视紧急医疗需求并给出危险建议;研究显示1300名参与者使用AI模型的自诊准确率不优于网络搜索或个人判断,专家强调医学诊断需动态交互能力,当前AI仅适合辅助文书工作如转录会诊记录,绝不能替代医生角色,呼吁建立严格评估体系确保医疗AI安全应用。
健康AI聊天机器人危险医疗建议牛津研究医疗AI缺陷错误诊断紧急医疗需求医疗场景信息断层评估体系医疗应用定位
牛津研究警告:AI聊天机器人提供“危险”医疗建议

错误答案、混淆建议与个性化信息处理困难困扰医疗AI聊天机器人

研究表明,AI聊天机器人正努力成为医疗保健领域的重大突破,它们在标准化测试中表现出色,为医疗问题提供建议。但发表于《自然·医学》的新研究显示,这些技术不仅远未达到应用标准,甚至可能带来危险。

由牛津大学多个团队主导的研究发现大型语言模型存在显著缺陷:尽管在医学知识理解方面技术先进,但在帮助用户解决个人医疗问题时严重不足。

“尽管存在大量炒作,AI尚未准备好承担医生角色,”该研究首席医疗专家丽贝卡·佩恩博士在公布研究成果的声明中表示,“患者必须意识到,向大语言模型咨询症状可能十分危险,它会给出错误诊断,且无法识别紧急医疗需求。”

研究邀请1300名参与者使用OpenAI、Meta和Cohere开发的AI模型识别健康状况。研究人员设计了一系列由医生制定的医疗场景,要求AI系统指导用户下一步处理措施。结果显示,AI的决策准确率不优于传统自诊方法,例如网络搜索甚至个人判断。

研究还发现用户与AI存在信息断层:用户难以判断大语言模型需要哪些信息才能提供准确建议。他们同时收到优质和劣质建议,导致后续行动难以确定。

佩恩博士向Decrypt表示:“作为医生,正确诊断远不止于事实记忆,医学既是科学也是艺术。倾听、探询、澄清、确认理解及引导对话至关重要。医生主动挖掘相关症状,因为患者常不知哪些细节重要。”她解释道,研究证明大语言模型“尚不可靠地管理与非专家的动态交互”。

研究团队总结认为,当前AI完全不适合提供医疗建议,若要在医疗领域正确应用,必须建立新的评估体系。不过,这并不意味着AI在医疗领域毫无价值。

佩恩指出,虽然大语言模型“在医疗领域确有作用”,但应定位为“秘书而非医生”。该技术擅长“总结和重组已接收的信息”,目前已被用于诊室“转录会诊内容,并将信息重新包装为转诊 specialist 的信函、患者信息表或医疗记录”。

团队强调,他们并不反对在医疗中应用AI,但希望此项研究能引导技术朝着正确方向发展。

【全文结束】