聊天机器人常给出错误健康建议,医学研究发现Chatbots often get health answers wrong, medical study finds

环球医讯 / AI与医疗健康来源:www.dagens.com瑞典 - 英语2026-05-13 08:36:39 - 阅读时长2分钟 - 726字
一项发表在《BMJ Open》的跨国医学研究显示,ChatGPT、Gemini等主流聊天机器人在回答健康问题时存在严重缺陷,约20%的回复被判定为高度问题性答案,50%存在不同程度错误,尤其在营养学和运动表现等争议性领域错误率高达32%,研究强调语言模型因无法验证事实仅能预测文本模式,患者应将AI建议作为初步参考而非医疗依据,必须通过专业渠道核实健康信息以避免误诊风险。
聊天机器人错误健康建议AI医疗回答可靠性医学问题健康信息核实疫苗癌症营养学运动表现
聊天机器人常给出错误健康建议,医学研究发现

人工智能工具已成为日常生活的一部分。人们使用它们搜索健康建议、理解症状或了解治疗方法。这看似快速简便,但新研究显示,聊天机器人的医疗回答并不总是可靠。

问题性答案

美国、英国和加拿大的研究团队测试了五大主流系统:ChatGPT、Gemini、Grok、Meta AI和DeepSeek。该研究发表在《BMJ Open》期刊上,每个聊天机器人回答了50个医学问题,涵盖癌症、疫苗、营养、干细胞和运动表现等主题。

两名医学专家检查了每个回答,结果令人担忧:约20%的回复被判定为高度问题性,50%存在明显问题,30%部分存在问题,仅有极少数完全准确。所有聊天机器人都未能生成完全正确的参考文献列表——250个回答中仅两个被完全认可。Grok的问题回答率最高(58%),ChatGPT紧随其后(52%),Meta AI达50%。

答案质量与主题相关

聊天机器人在疫苗和癌症领域表现较好,这些领域在线结构化研究更充分,但仍有约四分之一答案存在问题。营养学和运动表现领域情况更糟,由于网络存在相互矛盾的建议且科学共识较弱,导致回复混乱加剧。

开放式问题(即人们日常实际提问的类型)错误率高达32%,而简单封闭式问题错误率降至7%。研究还发现严重引用问题:当要求提供科学来源时,聊天机器人常生成不完整或错误的参考文献列表,部分引用作者错误,甚至完全虚构来源。

专家指出,这是因为语言模型不像人类理解信息,它们仅基于模式预测文本,无法验证事实或评估证据。其训练数据包含科学论文,但也混杂博客、论坛和社交媒体内容。

研究人员警告,聊天机器人仍可作为一般指导或帮助患者准备医生问诊的工具,但绝不应作为最终医疗权威。健康信息必须通过可靠来源或专业人员核实。

【全文结束】