英国国家医疗服务体系(NHS)正投资2.5亿英镑用于人工智能辅助诊断和治疗。然而曼彻斯特大学的研究表明,用于预测患者疾病高风险的机器学习模型无法提供稳定结果。人工智能将彻底变革医疗的宣称是否为时过早?我们采访了该研究的合著者特耶德·皮特·范斯塔教授。
曼彻斯特大学的研究表明,在人工智能能够取代用于预测患者患病风险的标准模型之前,还有很长的路要走。
机器学习算法常被大肆宣传为医疗领域的"颠覆性技术"。2019年4月,英国国家医疗服务体系宣布投资2.5亿英镑用于人工智能开发,期望通过改进癌症筛查、预估未来病床/手术/药品需求,以及识别更适合社区治疗的患者来减轻医疗系统压力。
英国卫生大臣马特·汉考克当时表示:"我们正处于一场重大医疗技术革命的临界点,这将通过使国家医疗服务体系成为真正具备预测性、预防性和个性化特征的健康护理服务来改变患者体验。"
人工智能无疑令人振奋,已在英国部分医院取得成功:算法成功预测癌症生存率,并通过减少预约爽约为信托机构节省了资金。多项研究认为机器学习的表现优于医疗领域许多传统统计模型。但曼彻斯特大学发表在《英国医学杂志》上的研究表明,在人工智能能够取代预测患者患病风险的标准模型前,仍有很长的路要走。
此前,英国Ofqual使用的AI模型在2020年8月过度压低A-level考试成绩,已引发对算法的质疑。
曼彻斯特大学和艾伦·图灵研究所的研究合著者特耶德·皮特·范斯塔教授表示:"医疗领域对人工智能和机器学习兴趣浓厚,但我们想验证这是否是明智的投资。"
预测他汀类药物适用人群
全科医生目前使用名为QRISK的标准统计工具,判断患者十年内患心血管疾病的概率是否达到10%或更高。若工具显示存在风险,患者将被开具他汀类药物。这类药物可降低血液中"坏"胆固醇水平,减少心脏病发作风险。
QRISK基于大规模匿名患者记录数据集和科克斯统计模型开发。"该模型持续追踪患者,判断其是否可能发生心脏病发作,"范斯塔解释道。尽管研究证实QRISK在人群层面预测准确,但其他研究指出其在个体风险评估中存在显著不确定性。部分专家认为,采用机器学习的模型或能为全科医生提供更精准的他汀类药物处方决策依据。范斯塔团队旨在验证此观点。
研究人员将12种主流机器学习模型与7种标准统计预测工具(如QRISK)进行对比,测试其对心脏病发作或中风风险的预测能力。数据集涵盖1998至2018年间英格兰391家全科诊所注册的360万患者,通过比对真实住院记录和死亡数据评估各模型性能。
分析结果显示,对于最可能遭遇心血管事件的患者群体,AI模型与统计工具给出的结论差异显著。例如,QRISK识别出223,815名心血管疾病风险超过7.5%的患者,但若采用其他模型重新评估,其中57.8%的患者风险评级将降至该阈值以下——这意味着医生若依据此类预测,将不会为其开具他汀类药物。
"最初我们对结果感到非常惊讶。深入分析后发现,这些模型未能处理长期效应研究中常见的特定偏差,"范斯塔透露。
人工智能中的偏差
研究者很快意识到,模型预测差异源于统计学中的"数据截断"概念——即当个体信息不完整时产生的系统误差。多数AI模型未考虑患者更换全科诊所的情况,导致数据失真。
"若患者在首日退出诊疗,科克斯模型会终止追踪该患者,"范斯塔解释道,"但我们发现机器学习模型未考虑此因素。"相反,它会假设该患者十年内未发生心脏病发作,尽管无法确认事实。类似地,即使患者仅注册数月,机器学习模型仍将其视为十年数据,从而严重低估临床风险。
研究建议目前不应以其他模型替代QRISK辅助全科医生制定治疗方案。范斯塔认为,在用于心血管风险预测的AI技术安全应用于临床前,还需大量工作。但他指出机器学习在影像诊断等领域可安全应用。
"我们希望人们能反思并批判性评估新技术的实际效能,"他表示,"重大投资前需审慎思考其真实价值,剥离技术炒作,认清此类风险预测工具实施过程中的挑战。"
【全文结束】