加州大学圣地亚哥分校医学院的研究人员已经证明,大型语言模型(LLMs),例如GPT-4,可以帮助自动化功能基因组学研究,这一领域旨在确定基因的功能及其相互作用。功能基因组学中最常用的方法称为基因集富集分析,其目的是通过将实验鉴定的基因集与现有的基因组数据库进行比较来确定这些基因集的功能。然而,更有趣和新颖的生物学往往超出了现有数据库的范围。使用人工智能(AI)分析基因集可以节省科学家大量的劳动时间,并使科学更接近于自动化理解基因如何共同影响生物学这一最广泛使用的方法。
研究人员测试了五种不同的大型语言模型,发现GPT-4最为成功,识别常用基因组数据库中经过整理的基因集的常见功能的准确率达到73%。当要求分析随机基因集时,GPT-4在87%的情况下拒绝提供名称,这表明GPT-4在分析基因集时具有最小的“幻觉”倾向。GPT-4还能够提供详细的叙述来支持其命名过程。
尽管需要进一步的研究来全面探索大型语言模型在自动化功能基因组学中的潜力,但这项研究强调了继续投资开发大型语言模型及其在基因组学和精准医学中的应用的必要性。为了支持这一点,研究人员创建了一个门户网站,帮助其他研究人员将其功能基因组学工作流程中纳入大型语言模型。更广泛地说,这些发现还展示了AI通过综合复杂信息生成新的、可测试的假设,从而在短时间内革命化科学过程的能力。
该研究发表在《自然方法》杂志上,由加州大学圣地亚哥分校医学院和加州大学圣地亚哥分校雅各布斯工程学院的Trey Ideker博士、Ideker小组的软件架构师Dexter Pratt博士以及Ideker小组的生物医学科学博士候选人Clara Hu领导。该研究部分由美国国立卫生研究院资助。
(全文结束)


