聊天机器人在指导患者医疗决策方面表现不佳Chatbots fall short in guiding patients on medical decisions

环球医讯 / AI与医疗健康来源:www.malaysiasun.com英国 - 英语2026-02-28 13:20:51 - 阅读时长3分钟 - 1018字
一项发表在《自然·医学》杂志上的新研究揭示,依赖人工智能获取医疗建议的患者,其健康决策质量并未优于使用互联网搜索或官方健康网站等传统资源的人群。牛津大学研究人员设计了10种涵盖普通感冒到脑出血等危急情况的医疗场景进行测试,发现大型语言模型虽能识别94.9%的病情,但在选择正确行动方案(如呼叫救护车)时仅达56.3%的准确率;当人类实际参与使用时,表现进一步恶化,相关病症识别率降至34.5%以下,行动方案正确率不足44.2%,结果与传统方法无异。研究指出AI知识库与人类互动间存在"巨大差距",用户提供的不完整信息和AI的误导性回应是主因,凸显了当前医疗AI在现实应用中的可靠性缺陷,对技术推广提出严峻挑战。
聊天机器人医疗决策健康决策AI医疗建议症状指导医疗场景行动方案传统资源AI表现不完整信息误导性回应
聊天机器人在指导患者医疗决策方面表现不佳

英国伦敦:根据发表在《自然·医学》杂志上的一项新研究,转向人工智能寻求医疗建议的人,在健康决策方面可能并不比依赖互联网搜索或官方健康网站等传统资源的人做得更好。

这一发现正值患者越来越多地使用AI聊天机器人寻求症状指导和下一步建议之际,尽管有证据表明此类工具比现有方法更安全或更有效的证据有限。

牛津大学互联网研究所的研究人员与医生合作开发了10种医疗场景,范围从普通感冒等轻微疾病到导致脑出血的危及生命的出血等紧急情况。

在无人类用户参与的初步测试中,三个大型语言模型——OpenAI的ChatGPT-4o、Meta的Llama 3和Cohere的Command R+——在94.9%的案例中正确识别了医疗状况。然而,它们在56.3%的案例中选择了适当的行动方案,例如呼叫救护车或寻求医疗护理。相关公司未回应置评请求。

人工智能承诺与现实应用之间的"巨大差距"

为了评估AI在实践中的表现,研究人员随后在英国招募了1,298名参与者。参与者被要求使用AI工具或其常用资源(如一般互联网搜索、个人经验或英国国家医疗服务体系网站)来调查症状并决定下一步行动。

当人类参与时,表现急剧下降。相关病症在不到34.5%的案例中被识别,正确行动方案的选择率不到44.2%,结果并不比使用传统资源的参与者更好。

该论文的合著者、牛津大学副教授亚当·马迪表示,研究结果揭示了AI系统能力与其在公众使用中表现之间的"巨大差距"。

"这些知识可能存在于那些聊天机器人中;然而,当与人类互动时,这些知识并不总是能有效转化,"他说,并补充说需要更多工作来理解这种失效发生的原因。

不完整信息和误导性回应

研究团队仔细检查了参与者与AI系统之间的约30次互动。他们发现用户经常提供不完整或不正确的症状信息。同时,AI模型有时会产生误导性或不准确的回应。

例如,一名患者描述的症状与蛛网膜下腔出血一致,包括颈部僵硬、畏光和"有史以来最严重的头痛",AI正确建议其前往医院。另一名参与者描述了类似症状,但称其为"可怕的"头痛,却被建议在暗室中躺下休息。

研究人员计划将研究扩展到其他国家和语言,并研究AI表现是否会随时间改善或在不同环境中有所差异。

该研究得到了数据公司Prolific、德国非营利组织迪特尔·施瓦茨基金会以及英国和美国政府的支持。

【全文结束】