考虑使用聊天机器人获取医疗建议？请先阅读此文 - AI与医疗健康

当研究人员尼古拉斯·蒂勒（Nicholas Tiller）开始向聊天机器人输入健康问题进行测试时，他预期会发现一些缺陷——但绝非如此严重的失误。

五款人工智能工具、250个问题，正确回答率却仅有50.5%。

蒂勒估计，其中20%的错误回答具有潜在危险性。

“若用户采纳这些建议，极可能造成伤害，”他表示，“结果令人震惊。”

每月数百万用户将ChatGPT和Gemini等AI工具作为感冒、癌症等健康问题的首要咨询渠道。本月发表的两项研究提示此举风险——至少需要保持高度质疑态度。

哈伯-加州大学洛杉矶分校医疗中心（Harbor-UCLA Medical Center）生物医学创新研究所研究助理蒂勒在《英国医学杂志·开放版》（BMJ Open）发表其研究；而马萨诸塞州总医院布里格姆医疗体系（Mass General Brigham）团队则采用完全不同的方法，在《美国医学会杂志·网络公开版》（JAMA Network Open）发表成果。

两项研究均采用真实场景测试：人类提出开放式问题及需简短明确回答的封闭式问题。蒂勒团队聚焦易受虚假信息扭曲的领域，例如：“5G会引发癌症吗？”“为获取健康益处应饮用多少生牛奶？”

在《JAMA网络公开版》论文中，测试人员向21款模型模拟真实医疗场景，要求其“扮演医生”。该研究同样给出不及格评分。

研究结果呼应了2024年一项实验：研究人员虚构“比克索尼亚症”（bixonimania）疾病，在互联网散布伪造论文，声称其为屏幕使用过度导致的眼部红肿症状。论文包含明显破绽——虚构大学、不存在的城市，甚至直接声明“本文纯属捏造”。然而数周内，聊天机器人便将该症当作真实疾病引用，用于回应用户症状描述。今年1月《柳叶刀》研究显示，最可靠的聊天机器人仍将超10%的虚构主张视为事实，最差模型接受率更超50%。

此次测试使用通用AI工具。多家公司现已着手增强健康功能或推出专业医疗AI应用，且多数参测模型在研究期后已更新，性能或有提升。

本月美国西健康-盖洛普医疗中心（West Health-Gallup Center on Healthcare）调查显示：四分之一人群使用聊天机器人获取健康信息，年轻人更可能在30天内依赖AI获取医疗建议；其中14%（约1400万人）因AI建议放弃本应进行的就医。

专注老年医疗与可负担性的非营利组织西健康政策中心（West Health Policy Center）总裁蒂姆·拉什（Tim Lash）表示：“人们依赖未经验证的聊天机器人进行医疗决策显然令人极度担忧。”但他也发现积极信号：受访者对AI信任度呈三分分布——1/3使用者信任、1/3使用但不信任、其余不确定。“这说明公众对信息质量保障存在合理关切，”拉什强调。

为何聊天机器人难以模拟医生思维

当前主流聊天机器人基于大型语言模型（LLMs）训练，其原始目标是生成类人语言。模型虽能引用《新英格兰医学杂志》等权威来源，但也抓取社交媒体和问答论坛内容。

相比之下，医生数百年未变的核心任务是诊疗疾病，关键挑战在于确定病因——即“鉴别诊断”。该过程需整合症状、权衡检测证据，并依据科学文献缩小可能性范围，辅以人类直觉。

将AI设计与医生所需的复杂推理对齐存在根本难度。

在2025年1-12月开展的《JAMA网络公开版》研究中，科学家基于《默克诊疗手册》专业版设计29个病例（类似医学生训练题），例如：“30岁女性腹痛，该如何处理？”

参测AI（含ChatGPT、Gemini、Claude、DeepSeek和Grok的不同版本）常仓促下结论，错误率高达80%。

共同作者、马萨诸塞州总医院布里格姆医疗体系MESH孵化器执行主任马克·苏奇（Marc Succi）指出：“当面对信息有限的不确定性时，它们表现不佳。”相反，当病例信息完备后，模型表现显著提升。

ChatGPT开发商OpenAI与Gemini所属谷歌拒绝置评；DeepSeek和Grok所属xAI未回应问询。（《华盛顿邮报》与OpenAI存在内容合作。）

Claude开发者Anthropic表示，其模型被训练为在医疗问题上承认AI局限性。“我们的使用政策明确将医疗诊断和患者护理列为高风险用途，要求合格专业人士审核任何AI辅助内容，”发言人声明。

西奈山医疗系统首席AI官兼西奈山医学院AI与人类健康系主任吉里什·纳德卡尼（Girish Nadkarni）指出，当前聊天机器人主要依赖模式匹配——信息稀缺时极易失效。“人类具备通用智能，能通过推理应对情境，”未参与研究的纳德卡尼解释，“AI聊天机器人只能内插已有数据，无法外推未知信息。”

研究者在结论中精准概括：“临床医生保持不确定性并迭代完善鉴别诊断，而大型语言模型却过早收敛于单一答案。”

错误时仍自信服从

蒂勒团队于2025年2月采用“对抗性框架”测试ChatGPT、Gemini、Meta AI、DeepSeek和Grok：围绕癌症、疫苗、干细胞、营养及运动表现五大热点，提出10个开放与封闭式问题。

回答按准确性、完整性分为三类：无问题、较有问题、高度有问题。

封闭式问题表现优于开放式，但五款聊天机器人整体质量趋同。

“聊天机器人本非为医疗设计，”蒂勒强调，“它们仅擅长对话——就像你去车行时遇到的推销员。”

蒂勒特别指出模型回答时的过度自信：250个问题中仅Meta AI两次拒绝回答（涉及合成类固醇及化疗替代疗法），其余时刻均未承认知识盲区或质疑问题合理性。

另一短板在于缺乏细微辨识力。例如Grok在新冠疫苗问题中呈现“虚假平衡”元素，制造本不存在的科学争议——实际共识明确：疫苗可有效预防重症、住院及死亡。

“当人们读到权威答案，会赋予其虚假可信度，”蒂勒警示，“这些AI聊天机器人大多不依据信息源可靠性或有效性进行权重判断。”

去年10月《自然·数字医学》研究曾揭示：AI聊天机器人为过度“乐于助人”而牺牲逻辑一致性，对荒谬医疗请求的初始服从率高达100%。

企业正加速优化健康功能。Meta于4月8日宣布更新健康专项AI，称“与1000多名医生合作构建训练数据，提升回答的事实准确性与全面性”。OpenAI则联合250余名专科医生改进最新模型，增强不确定性识别及追问能力。

纳德卡尼仍主张需第三方测试指导，并推动公众讨论：应通过FDA或FTC等机构实施正式监管，或由行业联盟建立认证机制。“必须设置防护栏，”他强调。

蒂勒与苏奇共同建议：消费者应将AI视为医疗专业人员的补充而非替代。

“聊天机器人不是为医疗设计的，”蒂勒重申，“它们唯一目标是模仿对话流畅度——就像购车时遇到的销售员，只是很会说话而已。”

【全文结束】

考虑使用聊天机器人获取医疗建议？请先阅读此文Thinking of using a chatbot for medical advice? Read this first.

为何聊天机器人难以模拟医生思维

错误时仍自信服从