获批用于眼科护理的人工智能模型在提供临床性能证据方面存在广泛差异,并且缺乏关于训练数据(包括性别、年龄和种族)的透明度。这项新审查由伦敦大学学院(UCL)和莫菲尔德眼科医院的研究人员领导。
该分析发表在《npj数字医学》杂志上,审查了欧洲、澳大利亚和美国36个获得监管批准的“作为医疗设备的人工智能”(AIaMD)工具,发现了令人担忧的趋势。
在审查的设备中,19%没有发布经过同行评审的准确性或结果数据。在评估其余可用证据时,研究人员发现,在131项临床评估中,只有52%的研究报告了患者的年龄,51%报告了性别,仅21%报告了种族。该审查还指出,大多数验证使用的是存档图像集,这些图像集具有有限的多样性或基本人口统计特征报告不足,地理分布也不均衡。
很少有研究将这些AI工具进行直接比较(8%)或将它们与人类医生的标准护理进行比较(22%)。值得注意的是,在131项研究中,只有11项(8%)是干预性的——即在实际临床环境中测试设备并影响临床护理的研究。这意味着实际环境中的验证仍然稀缺。
超过三分之二的AI工具针对糖尿病视网膜病变的筛查,单独或与其他疾病如青光眼和黄斑变性一起。而其他常见的威胁视力的情况和设置则大多未得到解决。
几乎所有被审查的设备(97%)都获得了欧盟的批准,但只有22%获得了澳大利亚的许可,仅有8%在美国获得授权。这种不均衡的监管格局意味着在一个大陆获得批准的设备可能不符合其他地方的标准。
作者认为必须解决这些不足之处。他们呼吁提供严格、透明的证据和符合FAIR原则(可查找性、可访问性、互操作性和可重用性)的数据,因为缺乏透明度可能会隐藏偏见。
首席作者Ariel Ong博士(UCL眼科研究所和莫菲尔德眼科医院NHS基金会信托基金)表示:“人工智能有可能帮助填补全球眼科护理的空白。在世界许多地方,眼科专家数量不足,导致诊断延迟和可预防的视力丧失。人工智能筛查可以帮助更早地识别疾病并支持临床管理,但前提是人工智能必须建立在坚实的基础上。”
“我们必须将人工智能工具的证据标准与任何医学测试或药物的标准一样高。促进制造商的更大透明度、跨多样化人群的验证以及高质量的干预性研究,重点放在实施结果上,是建立用户信心和支持临床整合的关键步骤。”
资深作者Jeffry Hogg(伯明翰大学)说:“我们的审查发现,可用于评估各个AIaMD有效性的证据极其多变,关于这些设备在实际环境中如何工作的数据有限。应更加重视数据集的准确和透明报告。这对于确保设备对所有人都能同样有效至关重要,因为某些人群可能在训练数据中代表性不足。”
从实际角度来看,该研究提出了几个下一步措施。作者鼓励制造商和监管机构采用标准化报告——例如,发布详细的“模型卡片”或每个开发阶段的试验结果。他们指出,AIaMD的监管框架可能受益于更标准化的证据报告方法,这将为设备开发者和最终用户提供清晰度。该审查还强调了新的指导方针,例如欧盟AI法案,这可以提高数据多样性和实际环境试验的标准。
研究人员希望他们的工作能够为政策制定者和行业领导者提供信息,以确保眼科护理中的人工智能既公平又有效。他们认为,强有力的监督将有助于实现更快、更准确的眼病检测——不会遗漏任何患者群体。
(全文结束)


