动机:随着电子健康记录(EHR)系统的日益普及,这些系统为转化研究带来了巨大的潜力。近年来,表示学习技术的发展使得可以有效地大规模表示EHR概念及其知识图谱,从而赋能下游EHR研究。然而,大多数现有方法需要使用患者级别的数据进行训练,这限制了其利用多机构EHR数据扩展训练的能力。另一方面,仅需摘要级数据的可扩展方法无法结合概念之间的时序依赖关系。
方法:我们引入了一种直接性医疗嵌入(DOME)算法,用于编码医疗概念之间的时间方向关系,使用的是摘要级EHR数据。具体来说,DOME首先将患者级别的EHR数据聚合成一个不对称共现矩阵。然后计算两个正点互信息(PPMI)矩阵,分别编码医疗概念之间的成对先验和后验依赖关系。随后,在这两个PPMI矩阵上执行联合矩阵分解,从而为每个概念生成三个向量:一个语义嵌入和两个方向性上下文嵌入。它们共同提供了EHR概念之间时间关系的全面描述。
结果:我们通过三组验证研究突显了DOME的优势和转化潜力。首先,DOME在多种疾病的疾病风险预测中持续改进现有的无方向嵌入向量,例如在肺癌中实现了接收者操作特征曲线下面积(AUROC)相对提高了5.5%。其次,DOME在方向性药物-疾病关系推理方面表现出色,成功区分了药物副作用和适应症,相应地在最先进的方法上相对提高了AUROC 10.8%和6.6%。最后,DOME有效构建了方向性知识图谱,区分了疾病风险因素和并发症,从而揭示了疾病进展轨迹。源代码可在
(全文结束)


