一个拼写错误、格式错误或俚语使用,都可能导致AI医疗系统向患者发出危险错误指令——这是麻省理工学院研究人员在6月发表的待同行评审研究中得出的关键结论。该研究发现,包含情感色彩或情绪化语言的表述足以干扰AI的诊断建议。研究共同作者玛丽泽·加塞米教授在《波士顿环球报》访谈中警告,若医生广泛依赖这类AI技术,可能造成严重医疗损害。
研究团队整合了真实医疗记录中的患者主诉和Reddit平台健康咨询数据,通过人为引入拼写错误、非标准语法(如全部小写字母)、不确定措辞("可能"、"某种意义上")和夸张表达("我以为我要死了")进行测试。当这些包含"人性化错误"的文本输入GPT-4等四个AI模型时,AI建议患者无需就医的概率比标准文本高出7-9个百分点。
慕尼黑工业大学保罗·哈格指出,这种现象揭示了AI推理的深层缺陷:"添加真实相关信息反而降低准确性,虽然更先进模型正在部分解决这个问题,但根本性研究仍缺失。"值得关注的是,在医疗场景中AI不仅存在普遍误判,还会加剧现有偏见——测试显示女性患者特别容易受到错误建议的影响。加塞米教授强调:"即使我们删除所有性别标识信息,模型仍能识别患者性别特征并产生偏见。"
该发现与《柳叶刀胃肠病学与肝病学》近期研究形成互证:医生过度依赖AI辅助诊断后,其自主识别癌前病变的能力显著退化。伦敦大学学院医院胃肠科医生奥马尔·艾哈迈德警示:"当AI影响我们的行为模式时,如何保持发现系统错误的能力将成为重大挑战。"
研究团队特别强调监管必要性:"临床AI必须将公平性作为强制性性能标准,训练数据必须包含多元且具代表性的族群数据。"此前研究已证实AI能通过文本检测种族特征,并对亚裔和黑人用户表现出同理心差异。随着ChatGPT等对话系统直接面向公众提供医疗建议,一个简单的拼写错误可能导致用户错过关键治疗,这种技术风险正在成为现实威胁。
【全文结束】