聊天机器人常给出错误健康建议，医学研究发现 - AI与医疗健康

聊天机器人常给出错误健康建议，医学研究发现Chatbots often get health answers wrong, medical study finds

环球医讯 / AI与医疗健康来源：www.dagens.com瑞典 - 英语2026-05-13 08:36:39 - 阅读时长2分钟 - 726字

一项发表在《BMJ Open》的跨国医学研究显示，ChatGPT、Gemini等主流聊天机器人在回答健康问题时存在严重缺陷，约20%的回复被判定为高度问题性答案，50%存在不同程度错误，尤其在营养学和运动表现等争议性领域错误率高达32%，研究强调语言模型因无法验证事实仅能预测文本模式，患者应将AI建议作为初步参考而非医疗依据，必须通过专业渠道核实健康信息以避免误诊风险。

人工智能工具已成为日常生活的一部分。人们使用它们搜索健康建议、理解症状或了解治疗方法。这看似快速简便，但新研究显示，聊天机器人的医疗回答并不总是可靠。

问题性答案

美国、英国和加拿大的研究团队测试了五大主流系统：ChatGPT、Gemini、Grok、Meta AI和DeepSeek。该研究发表在《BMJ Open》期刊上，每个聊天机器人回答了50个医学问题，涵盖癌症、疫苗、营养、干细胞和运动表现等主题。

两名医学专家检查了每个回答，结果令人担忧：约20%的回复被判定为高度问题性，50%存在明显问题，30%部分存在问题，仅有极少数完全准确。所有聊天机器人都未能生成完全正确的参考文献列表——250个回答中仅两个被完全认可。Grok的问题回答率最高（58%），ChatGPT紧随其后（52%），Meta AI达50%。

答案质量与主题相关

聊天机器人在疫苗和癌症领域表现较好，这些领域在线结构化研究更充分，但仍有约四分之一答案存在问题。营养学和运动表现领域情况更糟，由于网络存在相互矛盾的建议且科学共识较弱，导致回复混乱加剧。

开放式问题（即人们日常实际提问的类型）错误率高达32%，而简单封闭式问题错误率降至7%。研究还发现严重引用问题：当要求提供科学来源时，聊天机器人常生成不完整或错误的参考文献列表，部分引用作者错误，甚至完全虚构来源。

专家指出，这是因为语言模型不像人类理解信息，它们仅基于模式预测文本，无法验证事实或评估证据。其训练数据包含科学论文，但也混杂博客、论坛和社交媒体内容。

研究人员警告，聊天机器人仍可作为一般指导或帮助患者准备医生问诊的工具，但绝不应作为最终医疗权威。健康信息必须通过可靠来源或专业人员核实。

【全文结束】