研究评估人工智能生成医学图像的准确性Study evaluates the accuracy of medical images generated by artificial intelligence

环球医讯 / AI与医疗健康来源:medicalxpress.com美国 - 英语2025-10-24 02:01:49 - 阅读时长6分钟 - 2774字
威廉与玛丽学院数学副教授关楠·王及其来自耶鲁大学、弗吉尼亚大学和乔治梅森大学的研究团队开发了一种新型统计推断工具,用于严格识别合成医学图像与真实图像之间的差异。研究揭示了系统性差距,并设计出一种数学变换使AI生成图像与真实扫描高度匹配。这项工作强调了在医疗领域应用合成数据时,评估方法不仅需关注全局相似性,更要检测临床重要区域的细微差异,为人工智能在疾病诊断、解决数据稀缺和隐私问题方面的安全可靠应用提供了科学基础,是推动AI生成医学图像在临床环境中可信应用的重要一步。
人工智能医学图像准确性评估疾病诊断数据稀缺合成图像临床应用医疗保健统计推断图像保真度
研究评估人工智能生成医学图像的准确性

研究评估人工智能生成医学图像的准确性

作者:凯瑟琳·泰森,威廉与玛丽学院

编辑:丽莎·洛克,审核:安德鲁·齐宁

本文已根据Science X的编辑流程和政策进行审核。编辑在确保内容可信度的同时突出了以下属性:事实核查、可信来源、校对。

人工智能现在可以根据真实数据创建合成医学图像。此图说明了去噪扩散概率模型的过程。该模型从真实的功能性MRI脑部扫描开始,逐渐添加随机噪声,直到图像溶解成纯静态。然后,AI模型被训练从该噪声中工作,并基于真实图像重建合成医学图像。图片来源:埃马琳·纳尔逊

对许多人而言,人工智能生成图像的兴起引发了对错误信息、深度伪造以及现实与虚构之间界限模糊的担忧。但在医学成像领域,真实性不是问题——而是目标。

在利用人工智能辅助疾病诊断、增强噪点扫描或从有限数据重建完整图像时,临床医生必须确信他们所依赖的技术能产生详细且准确的结果。

这种准确性问题——合成图像与真实图像的相似程度——正是威廉与玛丽学院数学副教授关楠·王着手解答的问题。她与来自耶鲁大学、弗吉尼亚大学和乔治梅森大学的研究人员共同在《美国统计协会杂志》发表了一篇论文,评估了人工智能生成医学图像的保真度。

研究团队开发了一种新型统计推断工具,用于严格识别合成医学图像与真实医学图像之间的差异。他们的分析揭示了系统性差距,为解决这些问题,他们设计并测试了一种新的数学变换,使人工智能生成的图像与真实扫描更加接近——这是实现合成医学数据在临床环境中安全可靠使用的重要一步。

"生成式人工智能为革新医疗领域提供了令人兴奋的机遇,"王表示。"但在用于指导真实患者的决策之前,研究人员需要通过细致严谨的评估,证明医疗保健提供者可以信任这些新技术。"

重新构想医学成像

数据稀缺是将人工智能应用于医疗保健的主要挑战——王对此有着亲身体验。十多年来,她通过检查患者的脑部扫描、基因谱型和人口统计数据,研究阿尔茨海默病的进展,寻找驱动疾病发展的线索。然而,许多患者记录不完整,经常缺少MRI图像,这使得连接这些数据源变得困难。王希望利用生成式人工智能填补这些缺失部分。

"通过在拥有脑部扫描和至少一个其他数据(无论是人口统计或遗传数据)的患者上训练人工智能算法,我们可以创建一个模型,预测缺乏成像组件的患者的脑部扫描可能是什么样子,"王说。"这些合成图像随后可以帮助扩充我们现有的数据集,使我们更有机会发现患者特征与疾病进展之间的关系。"

保护患者隐私的指南使医院和研究人员难以共享医学图像。医疗专家获取和注释这些图像所需的成本和时间是导致数据稀缺的其他挑战。

当试图为罕见疾病开发诊断算法(此时扫描更少)或试图表征与某些代表性不足的人口统计数据(如儿科病例)相关的图像时,这些问题更加严重。

"合成图像可以通过生成大量新医学图像来解决数据稀缺的挑战,"王说。"由于这些图像不与任何特定患者关联,它们还可以减少隐私担忧。"

研究人员已经开发了多种方法来创建合成图像。一个广为人知的方法是生成对抗网络(GAN),其中两个AI网络相互竞争——一个生成图像,另一个试图检测伪造——直到合成扫描与真实图像几乎无法区分。

但在临床医生开始依赖这些合成图像之前,他们需要知道其准确性如何,这是王着手回答的问题。

"即使我们可以生成合成图像,它们有用吗?我们能信任它们吗?"她问道。"它们可能看起来像真实图像,但从统计学或数学角度,它们可能与真实图像不一致。"

在医学领域,基于错误数据做出决策的后果可能是灾难性的,因此需要严格的评估方法来探究这些问题。

见树又见林

现有的大多数用于比较合成图像和真实图像的统计策略依赖于体素(体素是3D像素)级别的分析。但是,比较数百张复杂图像(每张包含数千到数百万个体素)很快会变成统计噩梦,准确性也会受到影响。此外,以体素方式观察图像会将其与大脑等器官的复杂空间几何结构分离。想象一下,有人将图像以像素为单位发送给你,然后问你图像描绘了什么。

机器学习和计算机视觉等其他研究领域已开发出更全面的度量方法,包括弗雷歇 inception 距离、库尔贝克-莱布勒散度和总变分距离,以捕获全局分布。

"这些比较通常依赖于全局指标——即比较AI生成图像与真实图像之间的总体差异,"王说。"但在医疗保健中,临床上重要的差异通常只出现在小的子区域,例如正常组织和病变组织之间的细微变化。评估方法需要检测的正是这些微小变化。"

为了创建合成图像,王和她的同事首先收集了患者在特定时间间隔内轻敲手指时的功能性MRI(fMRI)脑部扫描。然后,他们通过逐渐向脑部扫描添加随机噪声,直到图像溶解成纯静态,训练了一种称为去噪扩散概率模型(DDPM)的AI工具。通过观察此过程,他们的DDPM学会了如何逆转它——从噪声开始并重建类似于原始图像的脑部扫描。可以将其想象为数字雨刷,将模糊的玻璃变成清晰的图像。

然后,他们使用了一种称为功能数据分析(FDA)的方法,将每个图像视为连续函数。在此框架下,他们构建了同时置信区域——捕获整个大脑域中不确定性的统计推断——以比较真实图像和合成图像。为了考虑脑部扫描的复杂几何结构,他们将大脑投影到球面上,这使得不同脑区更容易进行一对一比较。

使用这些技术,研究人员分析了所有图像以找到均值——所有合成图像的平均值与所有真实图像的平均值相比如何——以及协方差——衡量一个体素中的变化如何与其他空间中的变化相关。

他们很快发现合成数据与真实图像之间存在一些差异。

"我们看到大脑中一些本不该活跃的区域被激活,这表明我们的AI生成图像并未完全反映原始数据,"王说。

为解决这个问题,科学家们再次使用FDA,提出了一种新颖的变换,使合成图像与真实图像更加匹配。

"我们的工作强调了建立严格评估技术的重要性,这些技术不仅依赖全局相似性,还要关注这些图像的细微细节,"王说。"我们希望这项工作是使AI生成图像在医疗领域更具适用性和可信度的又一步。"

在八月举行的第八届国际计量经济学与统计学会议上总结演讲时,王阐述了此类评估方法的重要性:"生成式AI可以创建图像,但统计学为这些图像提供了科学基础。没有我们,它是艺术;有了我们,它就成为知识。"

更多信息:朱琳·古等人,《通过高级统计推断提升AI生成生物医学图像的置信度》,《美国统计协会杂志》(2025)。DOI: 10.1080/01621459.2025.2552510 由威廉与玛丽学院提供

【全文结束】

大健康
大健康