医学大数据在提高医疗质量和推动医学研究方面具有巨大潜力。然而,跨中心共享医疗数据,虽然对于构建大规模和多样化的数据集至关重要,但也引发了隐私问题和个人信息滥用的风险。
为了解决这个问题,已经开发了几种方法。去标识化方法容易受到重新识别的风险,而差分隐私通常会通过引入噪声来损害数据的实用性。在数据共享规定严格的地区,联邦学习被提出作为一种潜在的解决方案,可以在不共享原始数据的情况下进行协作模型训练。然而,它仍然容易受到模型更新或最终模型中的隐私泄露。因此,实现安全高效的医疗数据共享仍然是一个紧迫的问题。
为了解决这些挑战,周教授团队开发了CoLDiT,这是一种基于扩散变压器(DiT)骨干的条件潜扩散模型,能够根据BI-RADS类别(BI-RADS 3、4a、4b、4c和5)生成高分辨率的乳腺超声图像。CoLDiT的训练集包括来自202家医院的5,243名患者的9,705张乳腺超声图像,使用了多种超声设备以确保数据的多样性和全面性。
为了验证图像生成过程中的隐私保护,团队进行了最近邻分析,确认CoLDiT生成的图像没有复制训练集中的任何图像,从而保护了患者隐私。为了质量评估,他们邀请放射科医生对CoLDiT生成图像的真实性和BI-RADS分类进行评估。
在真实性评估中,除了一个资深放射科医生的AUC得分大于0.7外,其他五名放射科医生的AUC得分在0.53到0.63之间。此外,三名放射科医生在合成图像上的BI-RADS分类整体表现与真实图像相当,其中两名医生的表现甚至超过了他们在真实图像上的表现。
此外,该研究还利用合成乳腺超声图像进行BI-RADS分类模型的数据增强。结果表明,在将训练集中的一半真实数据替换为合成数据后,模型的性能与仅使用真实数据训练的模型相当(P = 0.81)。
与之前的工作相比,这项研究有几大优势。首先,使用来自202家医院的大规模多中心数据集确保了数据来源的多样性,涵盖了不同的供应商和设备等级。这使得模型能够捕捉到实际乳腺超声图像中的各种变化,从而生成更真实和精确的合成图像。
其次,采用纯变压器骨干而不是传统的U-Net,利用变压器捕捉长距离依赖关系的卓越能力,使模型能够生成更加连贯和详细的图像。第三,基于BI-RADS标签进行图像合成,可以生成特定BI-RADS类别的超声图像。这在医学背景下特别有价值,因为能够生成针对特定临床场景的图像对于准确诊断和治疗计划至关重要。
周教授团队认为,作为保护隐私的解决方案,合成数据将在医疗大数据的安全利用中发挥关键作用,加速医学研究和临床应用的进展,最终提高医疗服务质量和患者健康。未来,团队计划将生成式人工智能应用于更多类型的医学成像数据,以验证其在不同医学场景中的适用性。
(全文结束)


