研究表明AI提供"有问题"的健康建议AI gives ‘problematic’ health advice study finds | NationofChange

环球医讯 / AI与医疗健康来源:www.nationofchange.org美国 - 英语2026-05-07 02:48:19 - 阅读时长2分钟 - 774字
一项发表在《BMJ Open》上的新研究发现,AI聊天机器人在回答健康咨询时约有一半时间提供误导性或不妥当的建议。研究测试了ChatGPT、Gemini、Grok等主流AI系统,针对癌症、疫苗等50个医疗问题进行评估,结果显示近50%的回答被标记为有问题,30%缺乏安全医疗决策所需的完整背景信息。牛津大学专家警告,AI尚未准备好替代医生角色,患者向AI咨询症状可能导致错误诊断且无法识别紧急医疗需求,研究呼吁AI系统应像新药一样经过严格临床测试,而非仅依赖标准化评估。
AI健康建议误导性健康建议医疗AI健康咨询错误诊断医疗风险替代疗法医疗决策紧急医疗救助
研究表明AI提供"有问题"的健康建议

《BMJ Open》发布的一项新研究发现,当人们向AI聊天机器人咨询健康问题时,它们约有一半时间会提供误导性或不妥当的健康建议。该研究分析了ChatGPT、Gemini、Grok、Meta AI和DeepSeek等聊天机器人,每个系统被问及50个涉及癌症、疫苗、干细胞、营养和运动表现的健康与医疗问题。

研究人员发现,当这些工具用于处理真实患者症状时,存在显著差距。

该研究的主要医疗负责人、全科医生丽贝卡·佩恩博士(Dr. Rebecca Payne,牛津大学初级保健健康科学奈菲尔德系和班戈大学)表示:"这些发现突显了构建能够在健康等敏感、高风险领域真正支持人们的AI系统的困难。尽管有各种炒作,但AI尚未准备好承担医生的角色。患者需要意识到,向大型语言模型咨询症状可能是危险的,因为它可能导致错误诊断,并且无法判断何时需要紧急医疗救助。"

根据该研究,近50%对常见健康问题的回答被标记为有问题或不准确。约30%的回答缺乏做出安全医疗决策所需的完整背景信息。

一些聊天机器人对非科学的治疗方法给予了同等重视,实际上"合法化"了未经证实的替代疗法,而非标准医疗护理。用户通常不提供AI所需的特定数据,而AI在给出建议前很少提出澄清问题。

资深作者兼副教授亚当·马迪(Adam Mahdi)表示:"基准测试分数与实际表现之间的脱节应该为AI开发者和监管机构敲响警钟。我们最近在基准测试中的结构有效性研究表明,许多评估无法测量它们声称要测量的内容,而这项研究恰恰证明了为什么这一点很重要。我们不能仅依靠标准化测试来确定这些系统是否适合公众使用。正如我们对新药物要求进行临床试验一样,AI系统也需要与多样化的真实用户进行严格测试,以了解它们在医疗等高风险场景中的真实能力。"

【全文结束】