医疗AI中的合成数据转向:机遇与风险The synthetic Turn in healthcare AI: Promise and Peril - ScienceDirect

AI与医疗健康 / 来源:www.sciencedirect.com美国 - 英语2025-09-23 02:40:50 - 阅读时长4分钟 - 1628字
本文深入探讨了医疗人工智能领域从依赖人类生成数据向采用合成数据的转变趋势,详细分析了合成数据在解决医疗数据稀缺性和偏见问题上的潜力,特别是在肿瘤学、神经学和心脏病学等领域的应用前景,同时警示了合成数据可能带来的偏见、不真实性、幻觉现象、验证不足以及监管接受度不确定等风险,强调了建立人类-合成数据混合框架、完善治理机制以及培养医患信任对于实现公平医疗AI发展的关键意义,为未来医疗AI的负责任发展提供了全面视角和实用建议。
医疗AI合成数据人类生成数据健康风险疾病诊断患者预后医疗保健肿瘤学神经学心脏病学药物发现患者安全隐私保护
医疗AI中的合成数据转向:机遇与风险

摘要

人工智能(AI)已显著改善了诊断和临床护理,提高了医疗保健部门的运营效率。然而,该行业日益关注高质量人类生成数据在模型训练方面的枯竭问题。这促使人们转向使用合成数据。本文探讨了医疗领域这一转变的影响,讨论了其挑战与机遇。人类生成数据与合成数据之间的关系是互补的,每种数据都提供了独特的优势来解决代表性、泛化性和可扩展性方面的差距。进一步的研究和公开对话对于应对这一复杂局面并确保AI服务于患者和社会的最佳利益至关重要。

背景

人工智能(AI)社区日益关注可用于训练大型语言模型(LLMs)和其他AI系统的现有人类生成数据可能耗尽的问题[1]。这一观点得到了一项研究的支持,该研究预测AI语言模型可能在2026年至2032年之间,甚至更早(取决于训练强度),耗尽公开可用的训练数据[2]。这促使人们依赖于通过人工生成以模仿真实数据的合成数据。

医疗AI模型的训练

将AI模型整合到医疗系统中正在改变医疗专业人员诊断、治疗和管理患者护理的方式。这些技术能够分析海量数据集以识别模式、预测健康风险并支持基于证据的临床决策[11]。AI模型训练的一个关键优势在于提高诊断准确性。当在多样化和全面的数据集上进行训练时,AI系统能够更早地检测疾病,促进及时干预并改善患者预后。此外,AI可以优化资源分配,减少行政负担,并通过个性化治疗计划增强患者体验。

人类生成数据面临的挑战

尽管不可否认当前的AI模型已在大量人类生成数据上进行了训练,但这种方法固有的局限性,特别是在医学背景下,确实存在。这些局限性大多源于一个核心认识:人类数据不仅仅是事实的集合,而是代表着人类价值观、偏见和生活经验。因此,忽视这些无形元素会危及决策框架并加剧现有的健康差异[24]。

合成数据

通过渐进式增长生成对抗网络(PGANs)等技术生成的合成数据正在医疗保健领域成为一个重要的机遇,提供数据集多样性并避免数据隐私风险[33]。其在解决真实世界数据局限性方面的优势在各种医疗AI应用中日益明显(表1)。

合成数据广泛应用于各种医疗领域,特别是在肿瘤学、神经学和心脏病学中,通过放射组学、神经成像和计算机模拟临床试验取得进展。

进步的未来

虽然其他行业可能正在接近AI饱和,但医疗保健仍然是一个具有特殊机遇的领域。例如,在药物发现中训练的AI模型可以预测潜在的新型治疗靶点,还可以设计具有优化药代动力学和效力的分子,可能超越传统方法数十年的发展。AI整合到药物发现中显著减少了传统的" bench-to-bedside"瓶颈,该瓶颈传统上以高成本、长时间和高失败率为特征。

患者和从业者评估

了解患者和从业者双方的观点对于评估合成数据在医疗保健中应用的实际可行性至关重要。虽然技术性能和监管合规性至关重要,但任何数据驱动创新的采用最终取决于最终用户和提供者的信任、接受度和参与度。

通常,患者对将合成数据和AI整合到医疗保健中的看法是混合的。这是因为担心数据隐私、算法透明度和潜在的医疗错误。从业者则关注合成数据的临床有效性和可靠性,强调需要严格的验证过程和明确的监管指南。

总体建议

AI在医疗保健中的可能性是巨大的。它不应受到现实世界数据枯竭和模型训练中合成数据兴起的担忧限制。然而,随着AI变得越来越复杂和自主,建立强有力的监管框架变得至关重要[89]。因此,有必要确保AI在医疗保健中负责任且合乎道德地部署,采取适当的保障措施保护患者安全、隐私和自主权。这包括建立透明的算法决策过程、持续的性能监测和明确的责任框架。

CRediT作者贡献声明

Abhijit Poddar: 写作 – 审阅与编辑,写作 – 原稿,可视化,验证,项目管理,调查,正式分析,数据整理,概念化。S.R.Rao: 写作 – 原稿,软件,正式分析,数据整理。

利益冲突声明

作者声明,他们不存在可能被认为影响本报告工作的已知竞争性财务利益或个人关系。

参考文献(94)

【全文结束】