BMJ Open审计显示Grok在健康问题回答中"严重问题"比例最高Grok Had Highest Share of ‘Highly Problematic’ Health Answers in BMJ Open Audit

环球医讯 / AI与医疗健康来源:www.eweek.com美国 - 英语2026-05-13 09:42:57 - 阅读时长3分钟 - 1371字
BMJ Open发布的一项审计发现,五大消费级聊天机器人对健康和医疗问题的回答中有49.6%存在"问题",其中埃隆·马斯克的Grok聊天机器人提供的"严重问题"回答比例最高。研究显示,聊天机器人在回答健康问题时常偏离科学共识或使用模棱两可的语言,且开放式问题导致更多错误回答,而聊天机器人的回答往往显得自信且权威,这使得不可靠的信息看起来更具可信度,对用户健康可能构成风险。
健康问题AI聊天机器人GrokBMJOpen审计错误健康信息健康建议医疗专业人员科学共识健康话题
BMJ Open审计显示Grok在健康问题回答中"严重问题"比例最高

你可以在几秒钟内向AI聊天机器人提出健康问题。但信任其答案则是一个风险大得多的赌注。

BMJ Open发布的一项新审计发现,五大消费级聊天机器人对健康和医疗问题的回答中有49.6%存在"问题",其中埃隆·马斯克的Grok聊天机器人提供的"严重问题"回答比例最高。

这项审计加剧了人们对健康聊天机器人可能以平静、令人信服的语调包装错误信息的担忧。

自信的语调,被妥协的事实

主要问题不仅在于聊天机器人会犯错——更在于它们犯的是什么类型的错误。

研究对五大消费级工具——Gemini、DeepSeek、Meta AI、ChatGPT和Grok——的250条回复进行分析,发现许多回答偏离了既定的科学共识,或使用"规避性语言,在科学与非科学信息之间提供虚假平衡"。

这些回答涵盖了包括癌症、疫苗、干细胞、营养和运动表现在内的健康话题,提供了对本就容易产生错误信息的广泛领域的概述。

这导致健康建议听起来平静可信,却仍将读者引离事实。

开放式问题为错误回答提供了更多空间

问题的措辞改变了回答的质量。开放式提示产生的"严重问题"回答远多于封闭式提示,使其成为风险更高的形式。

封闭式问题给聊天机器人的发挥空间较小。而开放式提示则恰恰相反,它们为较弱的主张、更多推测和听起来更精致的错误信息打开了大门。

封闭式提示仅产生9条"严重问题"回答,而开放式提示则产生了40条。封闭式提示还返回了75条无问题的回答,而开放式提示则为51条。

这一差距值得注意,因为开放式提示非常接近人们实际上如何在线提出健康问题。许多用户并不是输入狭隘的是/否查询,而是寻求选项、建议或解释。

极少问题触发了真正的克制

在各种AI模型中,输出"始终以自信和确定的语气表达",即使答案有争议或错误。拒绝回答的情况很少见,聊天机器人可能超出其能力范围的强烈信号也很少见。在总共250个问题中,仅有两个问题被拒绝回答,且均来自Meta AI。

在健康领域,如此低的拒绝率尤为突出,因为有些问题本应拒绝回答或将用户重定向至医疗专业人员更安全。然而,这些聊天机器人通常还是会回答,即使提示偏向于有风险或不被支持的建议。

防护措施也不均衡。在每个聊天机器人的50条回复中,研究统计了建议咨询医疗或医学专家的警告或免责声明:

  • 44条Gemini回复
  • 38条DeepSeek回复
  • 37条Grok回复
  • 32条Meta AI回复
  • 28条ChatGPT回复

即便有这些警告,整体模式依然存在:回答往往听起来稳定且权威,这使得不可靠的信息看起来比实际更值得信赖。

答案披着可信的外衣

答案本身站不住脚,引用来源也无更好。

对于封闭式问题,AI聊天机器人被要求提供10个科学参考文献来支持其回答。研究发现引文完整性评分中位数仅为40%,且没有任何聊天机器人能为任何提示生成完全准确的参考文献列表。

这些回答也比看起来更难理解。平均而言,所有五种AI工具的回答可读性都落在"困难"范围,大致相当于大学二年级到四年级的水平。

因此,即使内容本身不可靠,其包装也可能看起来令人信服:精致的语言、看似学术的引用以及充分的自信,却缺乏与之匹配的可靠性。

【全文结束】