多伦多大学和卡尔加里大学的研究人员开发了一种创新方法,利用人工智能简化系统性综述的筛选过程。系统性综述是一种研究金标准,涉及分析大量已发表的文献。
这项研究最近发表在《内科学年鉴》(Annals of Internal Medicine)上,研究内容包括开发了即用型提示模板,使任何领域的研究人员都能使用大型语言模型(LLMs)如ChatGPT来筛选数千篇已发表的科学文章,以确定符合其标准的文章。
“每当临床医生试图决定使用哪种药物或哪种治疗方法最好时,我们都会依赖系统性综述来指导我们的决策,”该研究的第一作者、多伦多大学坦纳蒂医学院三年级医学生Christian Cao说。
为了撰写高质量的综述文章,作者首先需要收集所有之前发表的相关文献。Cao指出,根据主题的不同,评审人员可能需要筛选多达数十万篇论文,以确定哪些研究应该被纳入——这是一个耗时且昂贵的过程。
“目前还没有真正有效的自动化系统性综述的方法。我们认为我们可以在这方面发挥作用,利用这些已经变得非常擅长文本分类的大型语言模型。”Cao说,他与卡尔加里大学的导师Rahul Arora和Niklas Bobrovitz合作进行了这项研究。
为了测试他们的提示模板的性能,研究人员创建了一个数据库,包含10篇已发表的系统性综述及其完整的引用列表和每篇综述的纳入和排除标准。经过多轮测试后,研究人员开发了两项关键的提示创新,显著提高了提示模板在识别正确研究方面的准确性。
他们的第一项创新基于一种提示技术,指示LLM逐步思考以分解复杂问题。Cao将其比作要求某人出声思考或引导他人了解自己的思维过程。研究人员更进一步,开发了自己的方法,提供更结构化的指导,要求LLM系统地分析每个纳入标准,然后再对特定论文是否应被纳入做出整体评估。
第二项创新解决了所谓的“中间丢失”现象,即LLM可能会忽略输入文档中埋藏在中间的关键信息。研究人员发现,通过将指令放在开头和结尾可以克服这一挑战。Cao解释说,就像人类记忆偏向于最近的事件一样,在结尾重复提示可以帮助LLM更好地记住它被要求做的事情。
“我们使用自然语言陈述,因为我们真的希望LLM能够模仿人类解决这个问题的方式。”他说。
采用这些策略后,提示模板仅基于摘要就达到了近98%的敏感性和85%的特异性。当要求筛选全文时,提示模板的表现同样出色,敏感性为96.5%,特异性为91%。
研究人员还比较了不同的LLM,包括OpenAI的多个版本的GPT、Anthropic的Claude和Google的Gemini Pro。他们发现GPT-4的各种变体和Claude-3.5表现强劲且相似。
此外,研究还强调了LLM如何为作者带来显著的成本和时间节省。研究人员估计,传统的筛选方法使用人工审阅者可能需要花费数千美元的工资,而LLM驱动的筛选成本大约只有其十分之一。LLM还可以将筛选文章的时间从几个月缩短到不到一天。
Cao希望这些好处,加上他们的提示模板易于定制和使用,能够鼓励其他研究人员将其整合到工作流程中。为此,团队已经将所有工作免费在线发布。
作为下一步,Cao和他的合作者正在开发一个新的LLM驱动的应用程序,以促进数据提取,这是系统性综述过程中另一个耗时且劳动密集的步骤。
“我们希望创建一个端到端的系统性综述解决方案,使任何医学问题的临床级研究答案只需一次搜索即可获得。”
(全文结束)


