随机对照临床试验对于判断新疗法是否安全有效至关重要。但科学家们常常未能完整报告试验细节,导致其他研究人员难以评估这些研究的设计和执行质量。伊利诺伊大学厄巴纳-香槟分校的研究团队利用匹兹堡超级计算中心(PSC)获得美国国家科学基金会资助的Bridges-2系统,训练人工智能工具来识别特定研究报告中缺失的关键步骤。他们的目标是开发开源AI工具,供作者和期刊用于发现这些错误,从而更好地规划、执行和报告临床试验结果。
重要性说明
在证明新医疗手段安全有效的过程中,随机对照试验提供最可靠的证据。其核心在于将患者随机分配至接受实验性治疗的组别或不接受治疗的对照组。若缺乏这种随机化分配,可能导致病情较重的患者被分配至某一组,使比较结果失去公平性。另一项质量指标是科学家需提前明确研究目标及成功标准,而非事后寻找"理想结果"。
有时科学家正确执行了试验却未能准确记录在报告中;有时报告中的信息不完整则可能暗示关键步骤的缺失。无论哪种情况,每年报告的临床试验数量庞大,远超人类审核能力。
“临床试验被视为临床护理的最佳证据类型。若某种药物要用于治疗疾病……必须证明其安全有效……但临床试验的出版物存在诸多问题。它们往往缺乏足够细节,对具体操作流程不够透明,导致我们难以评估其证据的严谨性。”
——伊利诺伊大学厄巴纳-香槟分校 Halil Kilicoglu
伊利诺伊大学厄巴纳-香槟分校信息科学副教授Halil Kilicoglu希望验证人工智能能否被训练用于检查科学论文是否包含规范随机对照试验的关键要素——并标记出不足之处。他团队选择PSC的旗舰超算Bridges-2作为工具,通过美国国家科学基金会的ACCESS项目获得使用权限。
匹兹堡超级计算中心的贡献
研究团队以CONSORT 2010声明和SPIRIT 2013声明作为起点。这些报告指南由领域顶尖科学家制定,列出了规范试验所需的83项推荐内容。为测试不同AI评估科学论文对SPIRIT/CONSORT规范的遵循程度,伊利诺伊团队采用了自然语言处理(NLP)技术,并测试了多种此类AI系统。
Bridges-2适用于此项工作的部分原因在于其处理海量数据的能力——团队从2011至2022年医学文献中筛选出200篇临床试验描述文章进行研究。该系统还配备强大的图形处理器(GPU),用于基于Transformer神经网络训练AI模型,使人工智能能够区分优劣报告实践。
伊利诺伊团队随机选取部分文章作为训练数据。在训练数据中,正确答案已被标注,使模型能学习文本中与正确回应相关的模式。模型据此调整内部连接,强化导致正确预测的路径,弱化无效路径。随着训练推进,模型性能持续提升。当进一步训练不再产生改进时,研究人员在剩余文章上测试AI效果。
“我们正在开发深度学习模型,这需要GPU支持。而GPU维护成本很高……使用Bridges系统能直接获得GPU资源,这非常实用。此外,所需软件通常已预装。我的学生主要负责这项工作,让他们上手Bridges-2非常便捷。”
——伊利诺伊大学厄巴纳-香槟分校 Halil Kilicoglu
Kilicoglu团队使用F₁分数评估AI结果。这是衡量AI识别给定论文缺失清单项能力与其避免错误标记合规论文能力的综合指标。完美F₁分数为1,最低为0。
优化后的AI初始结果令人鼓舞。最佳NLP模型在句子级达到0.742的F₁分数,在全文级达到0.865。科学家已于2025年2月在《自然·科学数据》期刊发表研究成果。
Kilicoglu及其团队对结果感到振奋,但仍认为有提升空间。计划通过增加训练测试数据量来改进,并探索使用知识蒸馏等工具优化AI学习过程——即由超算开发的大型AI指导可在个人电脑运行的小型AI识别SPIRIT/CONSORT规范遵循情况。
最后一步对其最终目标至关重要:向期刊和科学家免费提供这些AI工具。科研人员可将论文草稿输入AI,即时发现遗漏步骤;期刊可在审稿流程中使用该工具,当清单项缺失时将稿件退回修改。伊利诺伊科学家的终极目标是通过提升医学研究领域的表现,最终造福患者。
【全文结束】


