剑桥教授称合成数据优于真实数据AI in healthcare – synthetic data better than real data, claims Cambridge professor

环球医讯 / AI与医疗健康来源:diginomica.com英国 - 英语2024-11-27 18:00:00 - 阅读时长8分钟 - 3707字
剑桥大学教授Mihaela van der Schaar提出,通过使用合成数据可以改善医疗数据的质量,甚至使合成数据优于真实数据
剑桥教授合成数据真实数据医疗数据患者隐私数据质量数据增强AI医疗保健合成数据集
剑桥教授称合成数据优于真实数据

如何解决医疗数据中缺失或有缺陷的问题?一位顶尖学者建议,只需生成新的数据。但这真的那么简单吗?

在我之前关于在医疗保健中使用人工智能(AI)的挑战报告中,一个反复出现的主题是研究人员在使用临床数据时需要尊重患者隐私。这些数据虽然对训练AI很有用,但可能会直接识别某个个体,或从匿名数据中重新识别出来。

相关的挑战是,任何在一个缺乏足够患者多样性的数据集上训练的系统,都会对多数数据主体给出更准确或更详细的结果,因为关于他们的数据更多,而对任何少数群体则结果较差。显然,这在研究应同样适用于所有人的治疗方法时是一个问题。

我在2024年10月的报告中探讨了AI和医疗设备的问题,同样的问题也适用于任何主要在主导数据主体中设计、测试和校准的技术,因此可能对其他人给出不准确的读数。光学传感器就是这样一个工具。例如,我在10月份的报告中提到,常见的血氧仪在检测深色皮肤的人时会给出不准确的读数。在COVID疫情期间,这可能导致更多的黑人和少数族裔(BAME)患者因错误的读数被送回家而不是住院治疗,从而导致更高的死亡率。

那么,AI供应商和使用其工具的专业人员如何克服这些挑战?他们如何确保使用的训练数据安全、可靠、多样且准确,包括在临床试验中确定系统是否可以使用?

提高数据质量和减少噪声

一个反直觉的答案可能是通过使用AI改进的数据,另一个是部署合成数据。至少,这是世界领先的医疗保健领域AI和数据专家之一的观点。Mihaela van der Schaar教授是剑桥大学机器学习、AI和医学的John Humphrey Plummer教授,也是剑桥医疗AI中心的主任。她说:

“我们可以使用AI真正提高我们拥有的数据质量,无论是电子健康记录数据,还是生物银行或临床注册表中的数据。我们知道,没有高质量的数据,就没有AI,也没有流行病学统计。但医疗数据包含各种错误:复杂的现实世界数据、需要聚合的多模态数据,以及可能不公平、嘈杂、错误或缺少重要信息的数据。在罕见疾病的情况下,我们可能只有非常有限的数据,或无法与其他参与者共享的私人数据。数据也可能分散在不同的临床试验或生态系统中,需要进行协调。此外,数据会随时间变化,尤其是在实践改变、人口结构变化或出现新疾病(如COVID)时。而且处理数据的成本很高。因此,我们现在正在使用AI来提高不同模型设计阶段的数据质量。”

那么,数据增强在实践中意味着什么?她解释说:

“我们可以通过填补缺失的数据、减少噪声或处理所谓的‘异常值’来提高数据质量。我们可以在不同类型临床试验或临床试验与电子健康记录之间的不同数据集中进行大量协调。这是在数据层面。但在训练模型阶段,我们也可以从数据角度决定如何将数据划分为子组以进行更稳健的训练,或进行数据驱动的模型选择。”

她继续说道:

“此外,我们可以使用新的数据驱动方法更好地测试我们的模型。目前,我们仍然停留在将数据分为训练、验证和测试集,并进行多次交叉验证的场景中。但现在我们可以使用AI做更多的事情来测试我们的模型。最后,我们知道随着数据的变化,我们的模型可能也需要改变。因此,我们需要理解和解决数据偏移和漂移问题。我们还需要更好的方法,在数据变化时实现可信预测。所有这些都属于数据驱动AI议程的一部分,这是机器学习时代的一个强大新支柱。”

到目前为止,逻辑上是合理的。举一个广泛存在的假设例子,如果一个系统主要是基于成年白人男性的数据训练的,而较少涉及女性、儿童或少数族裔患者的数据,那么在设计本应平等适用于所有人的医疗系统时,从其他来源引入数据是有道理的。

但是,引入这些缺失的数据假定有足够的关于缺失群体的数据,且任何额外的数据不是基于过去的错误研究或缺失数据产生的虚假假设或偏见。因此,从逻辑上讲,可能存在确认偏见引发的无限错误假设循环。

这一点尤其适用于合成数据这一互补学科——算法生成的文本、图像或视频,模仿真实世界的数据。van der Schaar教授是这一领域的领先倡导者。她强烈支持这一理念的有效性,表示:

“我们在八年前开始研究合成数据,我们一直是这一研究的先驱实验室。最初,当我们开始这项研究时,它主要集中在隐私保护上,但自那以后,我们已经取得了更大的进展。”

然而,合成数据这一广泛领域,加上快速出现的AI训练其他AI的挑战,尤其是使用AI生成的数据,让一些评论家感到担忧。这是因为这表明AI正变得越来越自我参照,远离人类。去年,澳大利亚莫纳什大学信息技术学院高级讲师Jathan Sadowski提出了“哈布斯堡AI”这一术语,描述了这个问题。他指出,21世纪的标志性创新可能成为技术版本的近亲繁殖、同源性和退化,这些问题最终导致哈布斯堡王朝男性血统的消亡,因为他们已无法再生育。

使用另一个比喻,想象无休止地复印复印件,直到原始图像丢失或无法辨认——这是一个日益增长的挑战,在合成内容可能很快在线上超过人类生成内容的时代尤为如此(参见diginomica的相关报道)。然后考虑生成式AI的“幻觉”——当缺乏足够的源数据时产生的听起来像事实的胡言乱语,依赖AI获取信息的人类可能会发现自己身处一个不可信的数据世界,这些数据的来源不确定。

我最近对AI驱动的转录服务Otter的曝光揭示了这种情况已经在发生:其AI总结了我录制的一段对话,插入了来自未知外部来源的统计数据,并将其呈现为某人在公开会议上所说的话。这是一个实际上在改写历史并将话语强加给他人的AI。

现在我们被要求信任用于初级研究目的的合成数据。但van der Schaar教授认为这种比较是误解和不切实际的,她说:

“合成数据是一种强大的创造,而不是次等的复制品。我的意思是,我们不仅使用合成数据提供保护利益相关者隐私的数据集,还可以提高数据质量,使合成数据优于真实数据。我们可以将不公平的数据集转换为公平的合成数据集。我们可以增加样本量较小的数据集。我们可以将一个医院、诊所或信托机构的数据集转移到具有不同特征和患者的另一个机构。我们还可以模拟未来情景:这些患者将来会发生什么,我们可以用它来创建整个生成生态系统。”

这一切可能是真实的,而且可能有无数例子表明合成数据只是解决了来自复杂、高度监管的真实世界的缺陷数据。即便如此,从系统外部的角度来看,这种方法的逻辑缺陷似乎仍然存在。这引出了一个问题:人类数据中的显著异常可能表明未解决的现实问题,这些异常可能在放大多数观点或清理被认为是混乱的数据的合成数据集中被忽视。

我最近关于脉搏血氧仪(至今仍未解决!)的问题报告揭示了这一点。在COVID疫情高峰期,广泛报道称黑人和少数族裔患者可能更容易死于该病毒。但这些报道忽略了常见医疗硬件的问题,这种设备主要在浅色皮肤上测试和校准,对BAME患者给出了不准确的读数,导致一些患者被送回家而不是住院治疗。

这个问题在随后几年被广泛报道,并被学术研究引用。事实上,英国政府也承认了这一点。在一份书面声明中,政府表示:

“肤色不同导致的性能差异本身并不一定是医疗保健的问题,前提是制造商认识到这种性能差异并适当调整设备以适应肤色。然而,无论是脉搏血氧仪还是其他数量不明的光学设备,都没有出现这种认识,这些设备没有根据肤色调整性能差异。在脉搏血氧仪中,这种问题因测试设备时仅使用肤色较浅的参与者而加剧,这些读数被视为标准。”

这种情况揭示了任何接受‘X群体比Z群体更容易患Y疾病’这一原则的数据集本身可能有缺陷、不正确或缺少重要背景。简而言之,合成数据可能与其他任何数据集一样容易受到确认偏见或错误假设的影响,甚至是人类研究员也是如此。

但van der Schaar教授再次驳斥了这些比较。尽管如此,她似乎承认合成数据在某些方面存在问题:

“合成数据可以从增强到隐私保护做很多事情。但对研究人员来说也很有用,因为有很多非常糟糕的合成数据包,人们声称自己在做合成数据,但实际上根本不知道自己在做什么。我们的开源包旨在允许社区以免费和开源的方式探索这一专业知识,而不是雇佣可能提供低质量合成数据的公司。”

因此,似乎存在好的合成数据和坏的合成数据。希望人类研究员能够区分它们。她补充道:

“我们希望构建一个包含多种分析方法的AI赋能临床生态系统。这些分析方法不是由像我这样的极客设计和构建的,而是由了解自己需求的临床医生设计和思考的,以及如何测试这些系统。”

我的观点

听君一席话,胜读十年书。但我们应该意识到对这个快速发展的世界日益增长的谨慎声音,至少在一般意义上是这样。正如我在7月份报道的那样,根据Europol的研究,到2026年,大多数在线内容将是合成内容,其内部创新实验室的“观察站”功能监测技术颠覆。

考虑到AI将越来越多地使用AI生成的数据训练其他AI,我们确实可能面临一个哈布斯堡式的未来,其中嵌入每个系统的技术开始更多地参考自身,而不是它所服务的人类。那时,我们将需要能够跳出系统并帮助识别其缺陷并纠正它们的人类。当然,假设这些人类专家仍然存在。在此期间,diginomica将继续直言不讳。毕竟,我们只是凡人。


(全文结束)

大健康
大健康