在医学领域有条著名准则:永远不要做出超出数据支持范围的结论。这是每位临床医生和研究人员接受的基础训练。
医学期刊编辑要求严谨,审稿人强调准确,科研人员通常会谨慎措辞——但这种严谨往往以表述清晰度为代价。例如典型的临床试验报告结论:
"针对498名欧洲复发/难治性多发性骨髓瘤患者的随机试验显示,治疗使中位无进展生存期延长4.6个月,60%患者出现三级至四级不良事件,生活质量评分有适度改善,但研究结论可能不适用于更年长或体能较差的人群。"
这种表述堪称医学写作的典范,却也令人疲惫。精确但不够直观。
不出所料,这类谨慎结论常被简化为更确定的表述。上述案例可能被压缩为:"该疗法改善生存和生活质量"、"药物毒性可控"、"多发性骨髓瘤患者从新疗法获益"。这些表述简洁有力,却常超出数据实际支持范围。
哲学家将这类表述称为"泛化陈述"——缺乏具体限定条件的广义结论。诸如"该疗法有效"或"药物安全"的表述看似权威,却未说明:对哪些人有效?有效比例多少?对比基准是什么?在何种条件下?
人工智能加剧医学概括失真
在健康传播伦理研究中,我们曾揭示医学研究中的泛化陈述倾向:将特定人群的研究成果转化为普适性结论,这种失真可能导致临床误用。对500多项顶级医学期刊研究的系统分析显示,超过半数存在过度泛化,其中80%使用泛化表述,不到10%提供泛化依据。
科研人员的过度概括倾向可能源于深层认知偏差。面对复杂数据和有限注意力,人类自然倾向简单宽泛的结论——即使这超出数据支持范围。事实上,追求数据解释性和叙事连贯性的科研本能,反而可能助长过度概括。
现在,人工智能(AI)正显著加剧这一问题。我们最新测试了ChatGPT、DeepSeek、LLaMA、Claude等10种主流大型语言模型(LLMs)对顶级医学期刊摘要的总结能力。
尽管要求模型保持准确,大多数AI仍系统性地移除限定条件、过度简化发现,将条件性结论重新包装为普适表述。
模型测试揭示风险
分析近5000个LLM生成的摘要发现,某些模型的过度概括率高达73%。典型错误包括将"该疗法在此项研究中有效"简化为"该疗法有效",这种表述完全消解了研究人群的限定条件。
与人类专家对比显示,AI生成的摘要出现过度概括的可能性是前者的五倍。令人担忧的是,ChatGPT-4o等新型号并没有改善,反而表现出更强的概括倾向。
这种现象的根源在于:训练数据中的过度概括表述使AI继承了人类偏见。同时,人类反馈强化学习机制导致AI偏好自信、简洁的结论,因为用户更倾向接受这类表述。
临床风险与应对方案
当前全球近半数科研人员已在使用AI辅助研究,58%认为AI比人类更擅长文献总结。但我们的研究显示,这种乐观可能存在问题。AI的过度概括可能大规模扭曲科学认知,这在人口特征、效应值和不确定性至关重要的医学领域尤为危险。
解决方案需要多管齐下:对科研人员,应制定更明确的学术写作规范;对AI开发者,需优化提示词鼓励谨慎表述;对部署应用,可采用本研究的方法建立LLM泛化倾向评估基准。
医学研究的精准性不仅体现在数据收集和分析,更体现在成果传播中。我们的研究揭示了人类与AI共有的过度概括倾向,要解决这个问题,必须对自然智能和人工智能都提出更高要求:既要审视科研成果的传播方式,更要规范塑造这种传播的工具训练过程。在医疗领域,精准的语言表达是确保正确疗法、确保证据有效性的关键。
【全文结束】


