提高制药研发(R&D)生产力的关键在于数据。
Martin Snyder,Certara数据科学软件总裁
getty
在临床研究期间收集的原始数据量正在不断增长——现代临床试验“平均生成360万个数据点”,这些数据来自常规现场访问、实验室检测、程序操作、患者报告结果、生物样本等。随着医疗和消费技术的进步,例如可穿戴设备(如植入装置或智能手表/戒指,用于监测生命体征),药物开发者能够比以往积累更多的数据,并获取50年前无法获得的测量值。在现代糖尿病和肥胖症试验中,对血糖水平的持续监测不仅提供了关于新疗法影响的具体而有价值的发现,还同时产生了大量的数据。
将这些庞大的数据转化为临床和安全性洞见是整个行业面临的挑战。随着研究数据的数量和种类不断增加,由于数据通常来自没有共同标准的不同源系统,将其转化为知识以支持及时决策变得越来越困难。统一和清理数据以便进行综合分析的问题常常拖慢研发引擎的速度。在研究人员进行关键决策之前,如继续项目、重新分配资源或将数据提交给监管机构审查和批准,将数据洪流转化为一条连贯的数据流是必要且基础的步骤。
被忽视的是,在研发过程早期就制定数据收集标准和验证流程的重要性。然而,一旦专注于数据,其他问题往往能更快得到解决。
规范并验证
通过与客户的对话,我多年来了解到,低质量数据始终是制药和生物技术公司在测试和研究新药时的一大痛点。问题的核心在于数据工程——如果测量单位不同、采血间隔不同或者数据集之间缺乏相关性,科学家如何有效分析结果?
想象一下:你正在开车,使用汽车导航系统,而你的乘客也在用手机导航。虽然两个导航来源似乎有帮助,但当它们不一致时,会增加驾驶员判断正确路径的工作量。更多信息可以带来更好、更精确的答案,但也可能需要更多工作来协调来自多个来源的额外数据。解决方案分为两步:为数据收集建立标准,然后验证这些标准是否已被遵守。越是将合规义务推给数据生产者,数据工程的工作就越简单,而这种简化的工作也为自动化和人工智能解决方案提供了稳定的目标。
在生命科学领域,通过指定数据格式来明确期望并不像听起来那么简单。传统工具,如关系数据库或XML模式,往往不支持预期的分析。现有的方法,包括数据传输协议(DTAs),通常不够详细以支持自动化。再加上因治疗领域、测试药物或研究目标的不同而产生的显著差异,存在许多潜在的失败点和误读机会。
数据验证工具也是这一过程中的关键要素。数据工程可以解决许多问题以支持所需的分析,但对于未能满足既定标准的输入数据,现有解决方案很少。为了避免收集不符合标准的数据,应与负责收集和输入数据的团队(包括合同研究组织CROs)以及那些可以从长远角度审视数据标准的人员保持开放沟通,以确保可扩展性和通用性。
以终为始的设计
尽管这一行动计划听起来简单,但在实践中更为复杂。在临床试验中,涉及许多利益相关者——科学家、医疗专业人员、安全专家、生物统计学家、专业实验室供应商等——他们都希望参与科学研究设计的讨论。达成数据标准的共识可能会迅速变得复杂。由于药物发现阶段的失败率高达88%,必须尽早对清洁数据进行分析,以评估项目的可行性,从而优化资源并减少机会成本。
虽然这种方法前期工作较多,但它从实地研究到监管提交和审查的过程中简化了整个临床流程。当数据标准在研发过程的早期阶段被制定、实施并遵循时,最终减少了数据统一的总成本,并使临床分析更加高效和自信。这为未来数据的重复使用打开了大门,并确保了研究的可重复性,这可能很快成为优先事项。
目标是,当消费者阅读药品标签时,他们能够对背后的研究和验证工作充满信心。更多数据意味着更精确的答案,生物制药行业比以往任何时候都拥有更多的数据。通过在早期优先考虑适当的数据标准化和验证技术,药物开发团队可以最大化数据的价值,以加速时间表并促进一个更加信息化的医疗生态系统。
(全文结束)


