人工智能工具已成为日常生活的一部分。人们使用它们搜索健康建议、理解症状或了解治疗方法。这看似快速简便,但新研究显示,聊天机器人的医疗回答并不总是可靠。
问题性答案
美国、英国和加拿大的研究团队测试了五大主流系统:ChatGPT、Gemini、Grok、Meta AI和DeepSeek。该研究发表在《BMJ Open》期刊上,每个聊天机器人回答了50个医学问题,涵盖癌症、疫苗、营养、干细胞和运动表现等主题。
两名医学专家检查了每个回答,结果令人担忧:约20%的回复被判定为高度问题性,50%存在明显问题,30%部分存在问题,仅有极少数完全准确。所有聊天机器人都未能生成完全正确的参考文献列表——250个回答中仅两个被完全认可。Grok的问题回答率最高(58%),ChatGPT紧随其后(52%),Meta AI达50%。
答案质量与主题相关
聊天机器人在疫苗和癌症领域表现较好,这些领域在线结构化研究更充分,但仍有约四分之一答案存在问题。营养学和运动表现领域情况更糟,由于网络存在相互矛盾的建议且科学共识较弱,导致回复混乱加剧。
开放式问题(即人们日常实际提问的类型)错误率高达32%,而简单封闭式问题错误率降至7%。研究还发现严重引用问题:当要求提供科学来源时,聊天机器人常生成不完整或错误的参考文献列表,部分引用作者错误,甚至完全虚构来源。
专家指出,这是因为语言模型不像人类理解信息,它们仅基于模式预测文本,无法验证事实或评估证据。其训练数据包含科学论文,但也混杂博客、论坛和社交媒体内容。
研究人员警告,聊天机器人仍可作为一般指导或帮助患者准备医生问诊的工具,但绝不应作为最终医疗权威。健康信息必须通过可靠来源或专业人员核实。
【全文结束】

