大型语言模型(LLMs)的出现彻底革新了生物医学与认知科学领域知识图谱(KGs)的整合方式,有效克服了传统机器学习方法在捕捉基因、疾病和认知过程间复杂语义关联方面的局限。我们提出MultiCNKG创新框架,该框架融合三大核心知识源:认知神经科学知识图谱(CNKG)包含2900个节点和4300条边,涵盖9类节点类型与20类边类型;基因本体(GO)包含4.3万个节点和7.5万条边,具有3类节点类型及4类边类型;疾病本体(DO)包含1.12万个节点和8800条边,含1类节点类型与2类边类型。通过运用GPT-4等大型语言模型,我们执行实体对齐、语义相似度计算及图谱增强,成功构建出连贯的知识图谱,将遗传机制、神经疾病与认知功能有机互联。最终形成的MultiCNKG包含6900个节点(涵盖5类节点,如基因、疾病、认知过程)和1.13万条边(跨越7类关系,如"导致"、"相关联"、"调控"),实现了从分子层面到行为层面的多维度知识视图。评估指标显示其精确率85.20%、召回率87.30%、覆盖率92.18%、图谱一致性82.50%、新颖性检测40.28%及专家验证通过率89.50%,充分验证其稳健性与逻辑一致性。在链接预测测试中,TransE模型(平均秩391,平均倒数秩0.411)与RotatE模型(平均秩263,平均倒数秩0.395)的表现与FB15k-237、WN18RR等基准测试集相比具有竞争力。该知识图谱显著推动了个性化医疗实践、认知障碍临床诊断以及认知神经科学假设构建等关键领域的应用发展。
【全文结束】


