对使用5700万份NHS医疗记录训练的AI引发担忧 - AI与医疗健康

对使用5700万份NHS医疗记录训练的AI引发担忧Concerns raised over AI trained on 57 million NHS medical records

环球医讯 / AI与医疗健康来源：www.newscientist.com英国 - 英文2025-07-09 17:17:21 - 阅读时长5分钟 - 2178字

一款名为Foresight的AI模型声称可以通过分析英格兰NHS的5700万份医疗记录预测疾病或住院率，但研究人员对其隐私保护和数据安全表示担忧，且现有法律框架难以完全解决相关伦理问题。

一款使用了5700万份英格兰国家医疗服务体系（NHS）用户医疗数据训练的人工智能模型，据其开发者称，未来可能帮助医生预测疾病或住院率。然而，其他研究人员对该模型大规模使用健康数据的隐私和数据保护问题表示担忧，甚至该AI的设计者也承认无法保证其不会无意间泄露敏感患者信息。

这款名为Foresight的模型最初于2023年开发，初始版本基于OpenAI的GPT-3——这是首个ChatGPT背后的大规模语言模型（LLM），并使用了来自伦敦两家医院的150万份真实患者记录进行训练。

如今，伦敦大学学院（University College London）的克里斯·汤姆林森（Chris Tomlinson）及其团队将Foresight扩展为他们所称的“全球首个国家级生成式健康数据AI模型”，也是同类中规模最大的模型。

Foresight利用了Meta开源的大规模语言模型Llama 2，并基于2018年11月至2023年12月期间英格兰NHS常规收集的八组不同医疗数据集。这些数据包括门诊预约、住院记录、疫苗接种数据等，涵盖了5700万人的总计100亿个健康事件——几乎相当于英格兰所有人口的数据。

汤姆林森表示，由于模型仍在测试阶段，团队尚未公布有关Foresight性能的具体信息。但他声称，未来该模型有望实现从个体诊断到预测整体健康趋势（如住院率或心脏病发作率）等各种功能。在5月6日的一场新闻发布会上，他表示：“Foresight的真正潜力在于预测疾病并发症的发生，为我们提供宝贵的干预窗口，从而推动医疗向更大规模的预防性方向转变。”

尽管潜在的好处尚未得到验证，但已有许多人对如此大规模地将个人医疗数据用于AI训练表示担忧。研究人员坚称，所有记录在训练前都已“去标识化”，但通过数据中的模式重新识别记录的风险已被广泛记录，尤其是在处理大型数据集时。

牛津大学（University of Oxford）的卢克·罗歇（Luc Rocher）表示：“构建既能保护患者隐私又强大的生成式AI模型是一个开放且未解决的科学难题。数据的丰富性使其对AI极具价值，但也使得匿名化变得极其困难。这些模型应严格由NHS控制，以确保其能够被安全使用。”

NHS数字部门（NHS Digital）的迈克尔·查普曼（Michael Chapman）在新闻发布会上表示：“输入模型的数据已经去标识化，因此直接标识符已被移除。”但查普曼承认，即便如此，仍存在重新识别的风险：“对于如此丰富的健康数据，很难保证某人绝对不会在数据集中被发现。”

为了降低这一风险，查普曼表示，AI正在一个定制的‘安全’NHS数据环境中运行，以确保信息不会泄露，并仅限经批准的研究人员访问。亚马逊网络服务（Amazon Web Services）和数据公司Databricks提供了‘计算基础设施’，但无法访问数据，汤姆林森补充道。

伦敦帝国理工学院（Imperial College London）的伊夫-亚历山大·德蒙乔伊（Yves-Alexandre de Montjoye）指出，一种检查模型是否会泄露敏感信息的方法是验证其是否能记住训练期间见过的数据。当《新科学家》（New Scientist）询问Foresight团队是否进行了此类测试时，汤姆林森表示目前尚未进行，但未来可能会考虑。

卡罗琳·格林（Caroline Green）也警告称，在未告知公众其数据如何被使用的情况下使用如此庞大的数据集会削弱公众信任。“即使数据已经被匿名化，但从伦理角度来看，人们对此非常敏感，因为他们通常希望对自己的数据保有控制权，并了解数据的用途。”

然而，现有的控制措施让人们几乎没有机会选择不让自己的数据被Foresight使用。据NHS英格兰发言人介绍，所有用于训练模型的数据均来自全国范围内的NHS数据集，并因“去标识化”而不再适用现有的退出机制。不过，那些选择不分享家庭医生数据的人，其数据不会被纳入模型。

根据《通用数据保护条例》（GDPR），人们有权撤回对其个人数据使用的同意，但由于像Foresight这样的大规模语言模型的训练方式，无法从AI工具中删除单条记录。NHS英格兰发言人表示：“由于用于训练模型的数据已经匿名化，因此并未使用个人数据，GDPR也不适用。”

关于GDPR应如何应对从大规模语言模型中删除数据的不可能性，这是一个未经测试的法律问题。但英国信息专员办公室（ICO）网站指出，“去标识化”数据不应与匿名数据混为一谈。“这是因为英国数据保护法并未定义这一术语，因此使用它可能导致混淆。”

法律地位进一步复杂化的原因在于，Foresight目前仅用于与新冠疫情相关的研究。汤姆林森表示，这意味着疫情期间实施的数据保护例外条款仍然适用。英国数据隐私组织medConfidential的山姆·史密斯（Sam Smith）表示：“这个仅用于新冠研究的AI很可能嵌入了患者数据，这些数据不能离开实验室。患者应该对其数据的使用拥有控制权。”

最终，围绕使用医疗数据开发AI的权利和责任冲突使Foresight的未来处于不确定状态。格林表示：“在AI开发过程中，伦理和人的因素往往是次要考虑，而不是起点，这的确是个问题。我们需要以人类和伦理为起点，然后才是技术。”

(全文结束)