预测人工智能工具的性能Predicting performance of artificial intelligence tools

环球医讯 / AI与医疗健康来源:hospitalnews.com加拿大 - 英语2024-11-30 02:00:00 - 阅读时长3分钟 - 1470字
多伦多总医院研究所的研究人员开发了一种改进的方法,用于评估人工智能模型在不同医疗环境中的性能。
人工智能医疗保健性能评估数据获取偏差泛化能力PEst方法准确性估计医疗数据集
预测人工智能工具的性能

多伦多总医院研究所(TGHRI)的科学家们开发了一种改进的方法,用于评估人工智能(AI)模型在各种医疗保健设置中的性能。随着医疗数据集变得更大和更复杂,使用AI分析这些数据集的趋势日益增长。医疗信息可以表现为非结构化数据,如医学图像、心电图(ECG)和临床笔记中的文本。尽管AI的进步已经产生了能够分析医学图像和临床语言的工具,但在没有每个设置的新多样数据测试的情况下,预测其在不同医疗保健设置中的有效性仍然具有挑战性。

为了使AI工具真正安全有效地用于患者护理,它们必须在不同的情况和患者群体中可靠地表现,这一概念被称为泛化能力,这需要准确的性能估计。“我们试图通过分析13个不同模态的数据集来解决估计AI模型准确性这一挑战,这些模态包括X光片、CT扫描、心电图、临床笔记和肺音记录。”博士生Cathy Ong Ly(TGHRI)和该研究的共同第一作者说。(从左到右)Cathy Ong Ly和Balagopal Unnikrishnan是TGHRI的博士生,他们的导师是UHNas多伦多总医院研究所的科学家Chris McIntosh博士。照片:UHN研究通讯

当团队在这些数据上测试各种AI模型时,他们发现这些模型的性能通常被高估了约20%。“我们认为这种高估是由于数据获取偏差(DAB),这是在数据从常规医疗护理中回顾性收集时自然发生的现象。”TGHRI的科学家兼该研究的高级作者Chris McIntosh博士说。“一般来说,AI可能会关注数据中的无关模式,而不是任务真正重要的内容。”McIntosh博士补充道,他还是多伦多大学(U of T)医学生物物理学系的助理教授。“不同的医院部门可能使用不同的设备或设置,并有不同的患者获取条件。”McIntosh博士还担任UHN和U of T联合医学影像系的人工智能和医学影像主席。“这些细微的变化,研究人员和临床医生可能察觉不到,但可以被AI算法检测到。当模型在这种数据上进行训练时,它们可能会依赖于这些细微差异,例如医学图像是如何拍摄的,而不是实际的医学内容,来进行预测。”

这种偏差的一个例子是,怀疑患有间质性肺病的患者通常会被引导进行特定的成像技术以确认诊断,而没有怀疑的患者则会接受更一般的扫描。算法在训练数据所在的医院似乎非常准确,但当在另一个使用不同扫描仪的医院部署用于临床护理时,准确性会下降,可能会对患者构成风险。

为了解决这个问题,研究人员开发并提出了一种开源的准确性估计方法PEst,该方法纠正了偏差,提供了更准确的外部性能估计。“我们的方法纠正了数据中的隐藏模式和偏差,预测模型在新数据集上的性能,其准确性在实际结果的4%以内。”TGHRI的博士生Balagopal Unnikrishnan和该研究的共同第一作者说。

鉴于AI模型在医疗保健中的准确性至关重要,因为建议可能会显著影响患者的结局,这些发现将有助于更安全、更广泛地使用AI,并支持新的医疗AI技术的发展。这项研究是UHN跨学科努力的一部分,旨在测量这些偏差在多种模态和疾病中的影响。

这项工作得到了加拿大自然科学与工程研究委员会(NSERC)、玛格丽特公主癌症基金会和UHN基金会的支持。研究数据得到了数字心血管健康平台投资的支持,包括UHN的彼得·蒙克心脏中心和特德·罗杰斯心脏研究中心以及MIRA通过癌症数字智能的支持。

Chris McIntosh博士是多伦多大学(U of T)医学生物物理学系的助理教授。他担任UHN和U of T联合医学影像系的人工智能和医学影像主席。


(全文结束)

大健康
大健康