你可以在几秒钟内向AI聊天机器人提出健康问题。但信任其答案则是一个风险大得多的赌注。
BMJ Open发布的一项新审计发现,五大消费级聊天机器人对健康和医疗问题的回答中有49.6%存在"问题",其中埃隆·马斯克的Grok聊天机器人提供的"严重问题"回答比例最高。
这项审计加剧了人们对健康聊天机器人可能以平静、令人信服的语调包装错误信息的担忧。
自信的语调,被妥协的事实
主要问题不仅在于聊天机器人会犯错——更在于它们犯的是什么类型的错误。
研究对五大消费级工具——Gemini、DeepSeek、Meta AI、ChatGPT和Grok——的250条回复进行分析,发现许多回答偏离了既定的科学共识,或使用"规避性语言,在科学与非科学信息之间提供虚假平衡"。
这些回答涵盖了包括癌症、疫苗、干细胞、营养和运动表现在内的健康话题,提供了对本就容易产生错误信息的广泛领域的概述。
这导致健康建议听起来平静可信,却仍将读者引离事实。
开放式问题为错误回答提供了更多空间
问题的措辞改变了回答的质量。开放式提示产生的"严重问题"回答远多于封闭式提示,使其成为风险更高的形式。
封闭式问题给聊天机器人的发挥空间较小。而开放式提示则恰恰相反,它们为较弱的主张、更多推测和听起来更精致的错误信息打开了大门。
封闭式提示仅产生9条"严重问题"回答,而开放式提示则产生了40条。封闭式提示还返回了75条无问题的回答,而开放式提示则为51条。
这一差距值得注意,因为开放式提示非常接近人们实际上如何在线提出健康问题。许多用户并不是输入狭隘的是/否查询,而是寻求选项、建议或解释。
极少问题触发了真正的克制
在各种AI模型中,输出"始终以自信和确定的语气表达",即使答案有争议或错误。拒绝回答的情况很少见,聊天机器人可能超出其能力范围的强烈信号也很少见。在总共250个问题中,仅有两个问题被拒绝回答,且均来自Meta AI。
在健康领域,如此低的拒绝率尤为突出,因为有些问题本应拒绝回答或将用户重定向至医疗专业人员更安全。然而,这些聊天机器人通常还是会回答,即使提示偏向于有风险或不被支持的建议。
防护措施也不均衡。在每个聊天机器人的50条回复中,研究统计了建议咨询医疗或医学专家的警告或免责声明:
- 44条Gemini回复
- 38条DeepSeek回复
- 37条Grok回复
- 32条Meta AI回复
- 28条ChatGPT回复
即便有这些警告,整体模式依然存在:回答往往听起来稳定且权威,这使得不可靠的信息看起来比实际更值得信赖。
答案披着可信的外衣
答案本身站不住脚,引用来源也无更好。
对于封闭式问题,AI聊天机器人被要求提供10个科学参考文献来支持其回答。研究发现引文完整性评分中位数仅为40%,且没有任何聊天机器人能为任何提示生成完全准确的参考文献列表。
这些回答也比看起来更难理解。平均而言,所有五种AI工具的回答可读性都落在"困难"范围,大致相当于大学二年级到四年级的水平。
因此,即使内容本身不可靠,其包装也可能看起来令人信服:精致的语言、看似学术的引用以及充分的自信,却缺乏与之匹配的可靠性。
【全文结束】

