制药业与对抗AI漂移的持续斗争Pharma and the ongoing battle against AI drift

环球医讯 / AI与医疗健康来源:pharmaphorum.com英国 - 英语2024-12-06 01:00:00 - 阅读时长6分钟 - 2812字
本文探讨了制药公司在临床试验中使用人工智能(AI)时面临的AI漂移问题,包括数据漂移和模型漂移的风险及其对患者安全和精准医疗的影响,并提出了应对策略。
制药业AI漂移患者安全临床试验个性化医疗欧盟人工智能法案持续监控数据漂移模型漂移合成数据
制药业与对抗AI漂移的持续斗争

随着制药公司越来越多地依赖人工智能(AI)来优化试验流程,AI模型随时间漂移的可能性对试验的完整性、患者安全及精准疗法的发展构成了重大风险。事实上,在临床试验设计和患者招募方面,特别是在个性化医疗领域,AI漂移是一个关键问题。当然,生命科学领域使用计算模型并不是什么新鲜事。据《经济学人》报道,制药行业“已经使用计算模型数十年,但AI正在以多种方式改变药物发现”,允许分析大量不同的数据并识别有前景的分子,而生成式AI(GenAI)可以构思全新的分子进行测试。该出版物还提到了AlphaFold 2和AlphaFold 3作为这方面的典型发展,并提到了AI明星初创公司Insilico Medicine。

但如果AI出错怎么办?2024年8月1日,《欧洲人工智能法案》(EU AI Act)生效,旨在促进欧盟内负责任的人工智能开发和部署。该法案在所有欧盟国家引入了一致的框架,基于前瞻性的AI定义和基于风险的方法(最低、特定透明度、高和不可接受)。《数字前沿》注意到了这种全球范围内的AI监控差异(或相似之处),指出《欧盟人工智能法案》要求建立“上市后监测系统”,“积极和系统地”收集、记录和分析模型性能的数据,而英国政府的自动化决策伦理、透明度和问责框架则要求决策者在整个系统生命周期中进行持续监控。在美国,即将离任的总统乔·拜登提出的《人工智能权利法案》规定,“自动化系统应有持续监控程序,包括重新校准程序,以确保其性能不会随着时间的推移低于可接受水平”。

那么,这种“持续”的机器监控过程是为了什么呢?因为随着时间的推移,就像人类一样,机器也会犯错误。例如,有人质疑OpenAI的ChatGPT——一个大型语言模型(LLM)——是否最近变得“更笨”了。这种现象被称为AI漂移,当数据和上下文变得过时时,生成式AI模型会从其原始编程中“漂移”。在生命科学领域,这可能非常严重。

根据微软的说法,漂移的本质分为两个阶段:1. 数据漂移——当输入分布发生变化时,可能会(实际漂移)或不会(虚拟漂移)影响类边界;2. 模型漂移——当实际类边界发生变化时(即实际漂移)。《自然》杂志发表的一项研究指出,较少对输入数据进行数据漂移(系统性输入分布变化)的监测,并发现仅监测性能不足以检测数据漂移;相反,漂移检测高度依赖于样本大小和患者特征。当然,如果没有数据漂移,模型漂移就不会发生。但是,当模型漂移确实发生时,它可能是渐进的或突然的。无论如何,几乎每个模型都会漂移。渐进漂移可能是由于客户行为、经济或法律的变化引起的;突然漂移发生在数据分布发生重大变化时,如自然灾害、恐怖袭击或在生命科学领域特别提到的产品召回。漂移的严重程度称为其“幅度”。

在患者选择算法中的AI漂移可能导致生命科学领域的各种问题:

  • 偏向的参与者群体无法准确代表目标人群:随着AI模型的漂移,它们可能会无意中引入或放大患者选择中的偏见。这可能导致试验人群无法反映现实世界患者的多样性。
  • 个性化医疗试验中患者分层无效:精准医疗依赖于准确的患者分层。AI漂移可能导致患者被错误分类到不正确的亚组,从而掩盖治疗效果或夸大患者队列之间的差异。
  • 试验结果和副作用预测不准确:漂移的AI模型可能提供越来越不可靠的试验结果预测或未能预见重要的副作用。这可能导致设计不当的试验、资源利用效率低下,甚至对参与者的安全构成威胁。

目前,AI漂移可以被视为一个严重的缺陷。因此,建议公司不断测试其AI,以确保技术运行符合组织标准——在制药行业这意味着确保不对患者健康和安全构成威胁。布朗大学数据科学和计算机科学教授、人文教授兼数据科学临时主任Suresh Venkatasubramanian表示:“你不能获得AI的好处,但将其视为文字处理软件……建立你可以检查、分析、查询并了解其运作的系统,而不仅仅是依赖黑箱来完成任务。” 从某种意义上说,避免危险的AI漂移涉及定期训练AI,就像人类员工需要参加继续职业发展课程一样。培训并建立警报系统可以帮助确保突发或渐进性AI漂移对公司运营的影响最小。然而,东北大学和Snap Inc的研究人员在2023年共同撰写的一篇论文中警告不要过于频繁或零星地重新训练技术。相反,论文建议采用“公平性监控模型”。

这涉及到适应,可以说是技术劳动力的行为转变。然而,模型适应通常涉及“记忆和遗忘”或“盲全局替换”,这是一个昂贵的过程。更好的方法是“知情适应”。任何AI漂移的监测本身都是这些先进技术开发者的学习过程,必须在错误信息泄露到系统之前及早检测:这就是漂移检测和数据验证之间的细微差别,通过在线增量学习算法在每个数据点到达时更新模型,正如微软所区分的那样。

正如BioProcess International所指出的,AI和ML正成为此类活动的优秀辅助工具,并且能够实现诸如“Pharma 4.0”等举措,将工业4.0的原则和技术应用于制药制造,旨在提高产品质量、患者安全、运营效率和创新,同时简化合规和监管监督。尽管如此,这些技术也有其局限性和风险。虽然人们常说“人在回路中”是我们安全的保障,但如果回到对偏见的担忧,这些问题源于非常人类的程序员对AI的训练,往往使用不完全具有代表性的样本。在生命科学领域,理解和机器与人类一样重要的是人类的多样性。

因此,像Linux基金会的开放神经网络交换(ONNX)计划这样的技术已经被开发出来,标准化深度学习模型,帮助缓解对“黑箱”感知的担忧。正如BioProcess International还指出的,设计不当、应用不当、控制疏忽和操作不当都可能损害AI的使用——但这适用于任何此类工具。因此,标准化成为关键因素;例如,通过FDA的ALCOA+原则。ALCOA代表“可归因、可读、同时、原始和准确”,而ALCOA+增加了“完整、一致、持久和可用”。该框架于2018年发布,用于处理21 CFR Part 11下的数据,是FDA发布的指导药物制造商如何创建、管理和维护电子记录和电子签名的法规框架。

正如上文所述,所有先进的技术程序都需要监控,以确保它们继续按原设计功能和性能——但像父母一样,需要适应性指导,监控和培训算法,使其与时俱进。高级的数据解释性、透明性和安全性技术在这方面帮助生物制药行业——尤其是在展示价值方面。然而,有助于防止AI漂移的是合成数据,即人工创建的数据。据Techopedia报道,合成数据成本效益高,避免了偏见和隐私问题,并允许多种情景测试。当然,仍存在伦理和“现实”考虑,但在临床试验背景下,它允许加速过程。不过,对其使用的犹豫在于,即使使用合成数据,如果生成算法本身存在偏见,则合成数据可能会进一步放大这种偏见。

因此,目前看来,标准化、监控、持续培训以适应现实世界的应用,以及适应,是防止AI漂移的必要处方——就像任何“季节性”病毒一样。


(全文结束)

大健康
大健康