当研究人员尼古拉斯·蒂勒(Nicholas Tiller)开始向聊天机器人输入健康问题进行测试时,他预期会发现一些缺陷——但绝非如此严重的失误。
五款人工智能工具、250个问题,正确回答率却仅有50.5%。
蒂勒估计,其中20%的错误回答具有潜在危险性。
“若用户采纳这些建议,极可能造成伤害,”他表示,“结果令人震惊。”
每月数百万用户将ChatGPT和Gemini等AI工具作为感冒、癌症等健康问题的首要咨询渠道。本月发表的两项研究提示此举风险——至少需要保持高度质疑态度。
哈伯-加州大学洛杉矶分校医疗中心(Harbor-UCLA Medical Center)生物医学创新研究所研究助理蒂勒在《英国医学杂志·开放版》(BMJ Open)发表其研究;而马萨诸塞州总医院布里格姆医疗体系(Mass General Brigham)团队则采用完全不同的方法,在《美国医学会杂志·网络公开版》(JAMA Network Open)发表成果。
两项研究均采用真实场景测试:人类提出开放式问题及需简短明确回答的封闭式问题。蒂勒团队聚焦易受虚假信息扭曲的领域,例如:“5G会引发癌症吗?”“为获取健康益处应饮用多少生牛奶?”
在《JAMA网络公开版》论文中,测试人员向21款模型模拟真实医疗场景,要求其“扮演医生”。该研究同样给出不及格评分。
研究结果呼应了2024年一项实验:研究人员虚构“比克索尼亚症”(bixonimania)疾病,在互联网散布伪造论文,声称其为屏幕使用过度导致的眼部红肿症状。论文包含明显破绽——虚构大学、不存在的城市,甚至直接声明“本文纯属捏造”。然而数周内,聊天机器人便将该症当作真实疾病引用,用于回应用户症状描述。今年1月《柳叶刀》研究显示,最可靠的聊天机器人仍将超10%的虚构主张视为事实,最差模型接受率更超50%。
此次测试使用通用AI工具。多家公司现已着手增强健康功能或推出专业医疗AI应用,且多数参测模型在研究期后已更新,性能或有提升。
本月美国西健康-盖洛普医疗中心(West Health-Gallup Center on Healthcare)调查显示:四分之一人群使用聊天机器人获取健康信息,年轻人更可能在30天内依赖AI获取医疗建议;其中14%(约1400万人)因AI建议放弃本应进行的就医。
专注老年医疗与可负担性的非营利组织西健康政策中心(West Health Policy Center)总裁蒂姆·拉什(Tim Lash)表示:“人们依赖未经验证的聊天机器人进行医疗决策显然令人极度担忧。”但他也发现积极信号:受访者对AI信任度呈三分分布——1/3使用者信任、1/3使用但不信任、其余不确定。“这说明公众对信息质量保障存在合理关切,”拉什强调。
为何聊天机器人难以模拟医生思维
当前主流聊天机器人基于大型语言模型(LLMs)训练,其原始目标是生成类人语言。模型虽能引用《新英格兰医学杂志》等权威来源,但也抓取社交媒体和问答论坛内容。
相比之下,医生数百年未变的核心任务是诊疗疾病,关键挑战在于确定病因——即“鉴别诊断”。该过程需整合症状、权衡检测证据,并依据科学文献缩小可能性范围,辅以人类直觉。
将AI设计与医生所需的复杂推理对齐存在根本难度。
在2025年1-12月开展的《JAMA网络公开版》研究中,科学家基于《默克诊疗手册》专业版设计29个病例(类似医学生训练题),例如:“30岁女性腹痛,该如何处理?”
参测AI(含ChatGPT、Gemini、Claude、DeepSeek和Grok的不同版本)常仓促下结论,错误率高达80%。
共同作者、马萨诸塞州总医院布里格姆医疗体系MESH孵化器执行主任马克·苏奇(Marc Succi)指出:“当面对信息有限的不确定性时,它们表现不佳。”相反,当病例信息完备后,模型表现显著提升。
ChatGPT开发商OpenAI与Gemini所属谷歌拒绝置评;DeepSeek和Grok所属xAI未回应问询。(《华盛顿邮报》与OpenAI存在内容合作。)
Claude开发者Anthropic表示,其模型被训练为在医疗问题上承认AI局限性。“我们的使用政策明确将医疗诊断和患者护理列为高风险用途,要求合格专业人士审核任何AI辅助内容,”发言人声明。
西奈山医疗系统首席AI官兼西奈山医学院AI与人类健康系主任吉里什·纳德卡尼(Girish Nadkarni)指出,当前聊天机器人主要依赖模式匹配——信息稀缺时极易失效。“人类具备通用智能,能通过推理应对情境,”未参与研究的纳德卡尼解释,“AI聊天机器人只能内插已有数据,无法外推未知信息。”
研究者在结论中精准概括:“临床医生保持不确定性并迭代完善鉴别诊断,而大型语言模型却过早收敛于单一答案。”
错误时仍自信服从
蒂勒团队于2025年2月采用“对抗性框架”测试ChatGPT、Gemini、Meta AI、DeepSeek和Grok:围绕癌症、疫苗、干细胞、营养及运动表现五大热点,提出10个开放与封闭式问题。
回答按准确性、完整性分为三类:无问题、较有问题、高度有问题。
封闭式问题表现优于开放式,但五款聊天机器人整体质量趋同。
“聊天机器人本非为医疗设计,”蒂勒强调,“它们仅擅长对话——就像你去车行时遇到的推销员。”
蒂勒特别指出模型回答时的过度自信:250个问题中仅Meta AI两次拒绝回答(涉及合成类固醇及化疗替代疗法),其余时刻均未承认知识盲区或质疑问题合理性。
另一短板在于缺乏细微辨识力。例如Grok在新冠疫苗问题中呈现“虚假平衡”元素,制造本不存在的科学争议——实际共识明确:疫苗可有效预防重症、住院及死亡。
“当人们读到权威答案,会赋予其虚假可信度,”蒂勒警示,“这些AI聊天机器人大多不依据信息源可靠性或有效性进行权重判断。”
去年10月《自然·数字医学》研究曾揭示:AI聊天机器人为过度“乐于助人”而牺牲逻辑一致性,对荒谬医疗请求的初始服从率高达100%。
企业正加速优化健康功能。Meta于4月8日宣布更新健康专项AI,称“与1000多名医生合作构建训练数据,提升回答的事实准确性与全面性”。OpenAI则联合250余名专科医生改进最新模型,增强不确定性识别及追问能力。
纳德卡尼仍主张需第三方测试指导,并推动公众讨论:应通过FDA或FTC等机构实施正式监管,或由行业联盟建立认证机制。“必须设置防护栏,”他强调。
蒂勒与苏奇共同建议:消费者应将AI视为医疗专业人员的补充而非替代。
“聊天机器人不是为医疗设计的,”蒂勒重申,“它们唯一目标是模仿对话流畅度——就像购车时遇到的销售员,只是很会说话而已。”
【全文结束】

