随着基因组数据的增长,组织这些数据成为一个越来越大的挑战。事实上,缺乏可搜索的基因组信息数据库已经对研究社区构成了挑战。现在,Genomenon的基于AI的方法——Genomenon基因组图谱(G3)知识库——结合了来自几乎所有的已发表科学和医学研究的患者和生物数据,包括人口统计学、临床特征、表型、治疗、结果以及与疾病相关的基因和变异。
G3底层大型语言模型的训练使用了Genomenon专有的、精心策划的基因组数据集。该知识库将为临床诊断和药物开发应用提供AI驱动的预测模型。
总部位于密歇根州安阿伯市的Genomenon——一家提供基因组智能解决方案的公司——指出,这一进展标志着首次将整个临床相关文献的内容捕获到一个单一的、可搜索的知识库中。该知识库将包括基因、遗传变异、拷贝数变异、结构变异(包括融合事件)、基因-疾病关系、药物、表型以及从已发表科学研究的索引内容中提取的患者人口统计学和症状。
除了使用自然语言查询优先排序、注释和总结相关文章,从而实现高级生物医学文献搜索和提醒功能外,这项技术还提供了可操作的患者和疾病见解。它还可以用于生成一个交互式数据库,其中包含结构化的生成式AI见解和分析,以满足真实世界证据应用的需求。
“已发表研究中包含的临床相关信息量巨大,但其庞大的数量使其对研究人员和临床医生来说难以访问,”Genomenon首席执行官Mike Klein说。“通过G3知识库,我们将所有临床相关数据和信息组织成一个可搜索的结构。利用知识库和一种全新的数据挖掘方式,我们彻底改变了可以提出的问题类型。原本隐藏在科学文献深处的新颖联系现在可以被揭示,真实世界数据的潜力可以被解锁,新的患者群体见解也可以获得。”
在Genomenon专有的、专家策划的数据集上训练特定于基因组的大型语言模型,提高了AI模型的准确性。这些数据集包括该公司Mastermind基因组智能平台和癌症知识库中策划的生殖系疾病和癌症内容。
“开发先进的基因组知识库是极其复杂的任务之一,涉及到文献的整体复杂性、命名法的独特性以及影响的敏锐度,”Genomenon工程副总裁Jonathan Eads说。“我们的AI平台,由特定于基因组的大型语言模型驱动,专门设计用于处理历史趋势和多样化自然语言描述的复杂性,以及不断演变的正式命名法和本体论。从几十年的出版物中准确提取实体及其关系是一项具有挑战性的复杂任务——但我们的技术独特地解决了这个问题,并且其结果具有独特的价值。”
(全文结束)


