英国伦敦:根据发表在《自然·医学》杂志上的一项新研究,转向人工智能寻求医疗建议的人,在健康决策方面可能并不比依赖互联网搜索或官方健康网站等传统资源的人做得更好。
这一发现正值患者越来越多地使用AI聊天机器人寻求症状指导和下一步建议之际,尽管有证据表明此类工具比现有方法更安全或更有效的证据有限。
牛津大学互联网研究所的研究人员与医生合作开发了10种医疗场景,范围从普通感冒等轻微疾病到导致脑出血的危及生命的出血等紧急情况。
在无人类用户参与的初步测试中,三个大型语言模型——OpenAI的ChatGPT-4o、Meta的Llama 3和Cohere的Command R+——在94.9%的案例中正确识别了医疗状况。然而,它们在56.3%的案例中选择了适当的行动方案,例如呼叫救护车或寻求医疗护理。相关公司未回应置评请求。
人工智能承诺与现实应用之间的"巨大差距"
为了评估AI在实践中的表现,研究人员随后在英国招募了1,298名参与者。参与者被要求使用AI工具或其常用资源(如一般互联网搜索、个人经验或英国国家医疗服务体系网站)来调查症状并决定下一步行动。
当人类参与时,表现急剧下降。相关病症在不到34.5%的案例中被识别,正确行动方案的选择率不到44.2%,结果并不比使用传统资源的参与者更好。
该论文的合著者、牛津大学副教授亚当·马迪表示,研究结果揭示了AI系统能力与其在公众使用中表现之间的"巨大差距"。
"这些知识可能存在于那些聊天机器人中;然而,当与人类互动时,这些知识并不总是能有效转化,"他说,并补充说需要更多工作来理解这种失效发生的原因。
不完整信息和误导性回应
研究团队仔细检查了参与者与AI系统之间的约30次互动。他们发现用户经常提供不完整或不正确的症状信息。同时,AI模型有时会产生误导性或不准确的回应。
例如,一名患者描述的症状与蛛网膜下腔出血一致,包括颈部僵硬、畏光和"有史以来最严重的头痛",AI正确建议其前往医院。另一名参与者描述了类似症状,但称其为"可怕的"头痛,却被建议在暗室中躺下休息。
研究人员计划将研究扩展到其他国家和语言,并研究AI表现是否会随时间改善或在不同环境中有所差异。
该研究得到了数据公司Prolific、德国非营利组织迪特尔·施瓦茨基金会以及英国和美国政府的支持。
【全文结束】

