摘要
定量结构-性质关系(QSPR)和定量结构-活性关系(QSAR)建模基于一个原理,即化学化合物的生物活性和理化性质可以从其化学结构中推导出来。这些关系通常从可以从化学化合物的分子图中计算出的图不变量开发而来。冠状动脉疾病发生在冠状动脉变窄或阻塞时,这可能会限制富氧血液流向心脏。冠状动脉疾病是全球失能调整生命年和死亡的主要原因。本研究通过使用基于偏心率的图不变量推进了QSPR建模,特别设计用于提高治疗冠状动脉疾病的药物(包括阿托伐他汀、辛伐他汀、瑞舒伐他汀、阿司匹林、氯吡格雷、美托洛尔、阿替洛尔、依那普利、赖诺普利、氨氯地平、地尔硫卓、硝酸甘油、硝酸异山梨酯、雷诺嗪、吉非罗齐和非诺贝特)的理化性质预测准确性。我们使用三次、对数、二次和线性模型来探索冠状动脉疾病药物的结构-性质关系。我们基于调整后的r平方值设计模型,将基于偏心率的不变量作为自变量,而将十六种药物的理化性质作为因变量。因变量包括沸点、蒸发热、重原子数、摩尔体积、极化率、复杂性、分子量和摩尔折射率。统计分析表明,最合适的结构-性质模型是非线性的。研究结果表明,偏心Albertson指数和偏心几何算术指数相比其他指数具有更优越的预测性能。分析表明,对于预测蒸发热、摩尔折射率、极化率和复杂性,三次回归是最佳选择。相比之下,二次回归是预测分子量的最佳选择,而线性模型在评估重原子数方面最有效。此外,对数回归是预测沸点和摩尔体积的最合适选择。为了验证我们回归模型的稳健性,我们用它们来评估五种未包含在原始数据集中的额外冠状动脉疾病药物的性质。将实验值与预测数据进行比较,显示它们之间存在强烈的相关性。这证明了我们的回归模型在评估这些关键理化参数方面的可靠性。
引言
化学信息学是一个现代领域,涉及数学、统计学、物理学、生物化学、化学、生物学和其他信息科学,专注于处理、分析、收集和存储化学数据。化学信息学是信息技术的一项有力应用,帮助化学家分析新问题以及理解和组织科学数据,以设计未知过程和化合物。分子和化学图在虚拟筛选、计算机辅助药物设计、定量结构-活性(QSAR)、定量结构-性质(QSPR)关系研究和化学信息学中发挥着至关重要的作用。化学信息学使用图形进行各种应用,包括数据库搜索和检索、理化性质预测、化学结构说明和编码。QSAR研究、虚拟筛选和QSPR分析建立在结构-性质原理上,该原理表示化学化合物的理化性质和生物活性可以根据其化学结构进行预测。这种结构-性质关联通常从图拓扑指数、从分子图计算的指纹和从化学结构汇总的分子描述符中开发出来。
化学图论利用数学模型研究化学和物理性质,包括摩尔折射率、熔点、凝固点、沸点、辛醇-水分配系数、马达辛烷值、偏心因子、表面张力和密度、摩尔体积、生成热和溶解度,这些模型是通过图论的图论技术开发的。化学信息学方法还用于预测与药物发现和优化相关的性质。例如,知识发现可用于确定制药数据匹配中的先导混合物。这个现代技术时代专注于推进化学科学,包括设计用于不同生物方法和感染的诊断试剂盒、药物发现以及化学化合物中的键形成。所有这些发展都需要强大的工具来实现这些进步。分析这些现象的一种新兴工具是拓扑指数,它对两个同分异构的化学网络给出相同的数值。
在QSPR/QSAR研究中使用了多种拓扑不变量,为底层结构提供了见解。用于此目的的不同类型的图不变量包括多项式、距离、谱和基于度的不变量。在各种类别中,基于距离的不变量很有价值,因为它们用于推导理化、生物和药理性质,包括毒性、相似性、连接性、熔点、沸点、熵、手性、表面张力、稳定性、密度、临界温度、分子量、摩尔折射率、极化率、摩尔体积和蒸发热。Kirmani等人研究了COVID-19药物的基于度的拓扑不变量,发现了与其性质的良好关系。Liu等人计算了抗病毒药物的距离基不变量。Havare利用M多项式方法建立癌症药物的QSPR模型。Adnan等人将基于度的不变量与抗结核药物的性质相关联。Shanmukha等人研究了抗癌药物,建立了拓扑不变量和化学特性之间的联系。Zaman等人开发了QSPR模型,利用线性回归模型预测分子性质。Ravi和Desikan操作了减少的反向度基不变量,为透明质酸-紫杉醇缀合物开发QSPR模型,显示出强大的预测能力。Gnanaraj等人对NSAID药物进行了QSPR分析,而Nasir等人讨论了血液癌症化合物。此外,QSPR建模已应用于研究不孕症治疗药物、抗肿瘤、乳腺癌、抗疟疾、结直肠癌、心血管疾病和HIV/AIDS的药物。这些研究表明,QSPR分析提供了一种用于预测建模的新技术,丰富了我们对拓扑不变量如何改善药物开发和药物设计的理解。然而,大部分QSPR研究集中在基于度的分子描述符上,在探索基于偏心率的描述符方面存在差距。本研究通过提出这些指数并展示它们与药物性质的强相关性来解决这一差距,为预测建模提供了一种新技术,并超越了现有方法提高了药物设计的准确性。我们的研究将机器学习回归策略与氢耗尽分子图的拓扑不变量相结合,专注于基于偏心率的描述符。我们的目的是改善分子相互作用并增强预测建模,最终完善药物设计精度。这可能有助于为被忽视的疾病开发更有效的广谱药物。
冠状动脉疾病的特点是冠状动脉中形成动脉粥样硬化,有时可能无症状。冠心病,也通常称为缺血性心脏病,包括无症状心肌缺血、急性冠状动脉综合征和稳定型心绞痛等疾病。与冠心病相关的死亡主要是由冠状动脉疾病引起的。急性冠状动脉综合征通常有症状,并包含心肌梗死和不稳定型心绞痛等疾病。冠状动脉疾病是全球失能调整生命年(DALYs)损失和死亡的主要原因。这个问题主要影响低收入和中等收入国家,每年导致约1.29亿DALYs和700万死亡。2015年,全球有890万人死于冠状动脉疾病,损失1.64亿DALYs。心肌梗死幸存者的复发风险要高得多,他们的年死亡率比没有冠状动脉疾病的人高5至6倍。冠状动脉疾病的特点是心肌的氧气和血液供应不足。症状是由于冠状动脉阻塞,导致氧气需求和供应不匹配而发生的。冠状动脉疾病通常是由冠状动脉腔内形成限制血流的斑块引起的。冠状动脉疾病是全球死亡的主要原因。冠状动脉疾病在20世纪初是不寻常的死亡原因。20世纪60年代中期,冠状动脉疾病导致的死亡增加,然后下降。然而,这种疾病仍然是全球死亡的主要原因。死于冠状动脉疾病的风险随着年龄的增长而显著增加。可改变的风险因素包括收缩压,它在与衰老相关的冠状动脉疾病威胁增加中起着至关重要的作用。下表1显示了一些常用于治疗冠状动脉疾病的药物,它们的分子图显示在图1中。
表1 冠状动脉疾病药物及其相应化学结构和治疗用途
材料与方法
本研究首先收集用于治疗冠状动脉疾病的药物的理化性质数据。表2展示了从ChemSpider和PubChem收集的药物化合物的理化-化学性质。
本研究的方法论假设了一个有组织的策略,通过使用基于偏心率的拓扑指数的QSPR建模来分析和预测冠状动脉疾病药物的理化性质。我们开发线性、二次、对数和三次回归模型,通过考虑基于偏心率的拓扑指数作为自变量和理化性质作为因变量,来关联十六种冠状动脉疾病药物结构的理化性质。线性、对数、二次和三次回归模型具有以下数学表达式:
PCP = a[TI] + C
PCP = a log[TI] + C
PCP = b[TI]² + a[TI] + C
PCP = c[TI]³ + b[TI]² + a[TI] + C
在上述方程(1)-(4)中,PCP表示理化性质,TI是基础结构的拓扑指数值。常数c、b和a是回归系数,C是常数。
基于偏心率的拓扑不变量
基于偏心率的拓扑不变量对于研究分子结构至关重要,特别是在网络分析和数学化学中,因为它们通过封装分子框架内的极值距离,提供有关分子分支、稳定性和总体连接的重要信息。分子图中顶点r的偏心率表示为r到图中任何其他顶点的最大最短路径距离,这些指数的来源。我们用η(r)表示顶点r的偏心率。现在,我们将讨论我们在QSPR建模中使用的几种基于偏心率的指数。
Vukičević和Graovac提出了图D的第一Zagreb偏心版本:
M^e₁(D) = ∑(η(r) + η(t))
Ghorbani和Hosseinzadeh引入了第二偏心Zagreb指数:
M^e₂(D) = ∑(η(r)η(t))
Ghorbani和Khaki定义了D的偏心几何算术指数:
GA^e(D) = ∑(2√(η(r)η(t))/(η(r)+η(t)))
偏心原子键连接性指数首次在文献中给出:
ABC^e(D) = ∑(√((η(r)+η(t)-2)/(η(r)η(t))))
和连接性指数的概念在文献中给出,定义为:
χ^e(D) = ∑(1/√(η(r)+η(t)))
Zaman等人给出了偏心逆和指数和偏心Albertson指数的概念,它们的数学表达式如下:
ISI^e(D) = ∑(η(r)η(t)/(η(r)+η(t))), ABL^e(D) = ∑|η(r)-η(t)|
拓扑不变量的计算
冠状动脉疾病药物的基于偏心率的边分区显示在表3和表4中。通过使用此边分区,我们旨在计算本节中的基于偏心率的拓扑指数。设D₁、D₂、...、D₁₆分别为阿托伐他汀、辛伐他汀、瑞舒伐他汀、阿司匹林、氯吡格雷、美托洛尔、阿替洛尔、依那普利、赖诺普利、氨氯地平、地尔硫卓、硝酸甘油、硝酸异山梨酯、雷诺嗪、吉非罗齐和非诺贝特的分子图。
为展示基于偏心率的指数的计算,我们考虑雷诺嗪(D₁₄)作为参考结构。
- 通过使用第一和第二偏心Zagreb指数和表4,我们有
M^e₁(D₁₄) = 5(18+17) + 7(17+16) + 4(16+15) + 2(15+14) + 3(14+13) + 3(13+12) + 2(12+11) + 3(11+10) + 4(10+9) = 929
M^e₂(D₁₄) = 5(18×17) + 7(17×16) + 4(16×15) + 2(15×14) + 3(14×13) + 3(13×12) + 2(12×11) + 3(11×10) + 4(10×9) = 6782
- 通过使用偏心几何算术指数和表4,我们有
GA^e(D₁₄) = 2×5√(18×17)/(18+17) + 2×7√(17×16)/(17+16) + 2×4√(16×15)/(16+15) + 2×2√(15×14)/(15+14) + 2×3√(14×13)/(14+13) + 2×3√(13×12)/(13+12) + 2×2√(12×11)/(12+11) + 2×3√(11×10)/(11+10) + 2×4√(10×9)/(10+9) = 32.9762
表3 基于偏心率的药物化合物边分区
- 通过使用偏心原子键连接性指数和表4,我们有
ABC^e(D₁₄) = 5√((18+17-2)/(18×17)) + 7√((17+16-2)/(17×16)) + 4√((16+15-2)/(16×15)) + 2√((15+14-2)/(15×14)) + 3√((14+13-2)/(14×13)) + 3√((13+12-2)/(13×12)) + 2√((12+11-2)/(12×11)) + 3√((11+10-2)/(11×10)) + 4√((10+9-2)/(10×9)) = 12.1595
- 通过使用偏心和连接性指数和表4,我们有
χ^e(D₁₄) = 5/√(18+17) + 7/√(17+16) + 4/√(16+15) + 2/√(15+14) + 3/√(14+13) + 3/√(13+12) + 2/√(12+11) + 3/√(11+10) + 4/√(10+9) = 6.3202
- 通过使用偏心ISI指数和表4,我们有
ISI^e(D₁₄) = 5((18×17)/(18+17)) + 7((17×16)/(17+16)) + 4((16×15)/(16+15)) + 2((15×14)/(15+14)) + 3((14×13)/(14+13)) + 3((13×12)/(13+12)) + 2((12×11)/(12+11)) + 3((11×10)/(11+10)) + 4((10×9)/(10+9)) = 231.9439
- 通过使用偏心率Albertson指数和表4,我们有
ABL^e(D₁₄) = 5|18-17| + 7|17-16| + 4|16-15| + 2|15-14| + 3|14-13| + 3|13-12| + 2|12-11| + 3|11-10| + 4|10-9| = 33
表4 基于偏心率的药物化合物边分区
其他药物的基于偏心率的拓扑不变量值显示在表5和表6中。
表5 药物分子的基于偏心率的拓扑指数
表6 药物分子的基于偏心率的拓扑指数
结果与讨论
为确定预测分子性质的最合适拓扑指数,我们使用R语言和SPSS执行回归分析,采用三次、线性、对数和二次模型。对于每个指数,我们通过检查p值、标准误差、F统计量、r²和调整后的r²等指标来评估模型的统计显著性。我们的目标是指定提供最稳健预测的模型。通过比较预测值与实际值来验证性能最佳的模型。我们的选择标准侧重于实现最高的调整后r²值、最低的标准误差和p < 0.05的统计有效性。这种方法提供了一种数据驱动的策略,在清晰度和准确性之间取得平衡。
分子量回归模型分析
表7显示了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的分子量值集作为因变量。图2展示了这些回归模型的调整后r²值的图形比较。当我们分析表7中给出的调整后r²值时,很容易观察到ABC^e和χ^e不变量在线性模型中提供最佳值,而其他不变量在二次模型中实现最适合的拟合。表8显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心几何算术指数是使用二次模型的最具预测性的指数。
表7 不同回归模型MW的r²和调整后r²-值比较
表8 基于调整后r²值的MW最佳回归模型
使用最佳预测指数对药物分子量的实际值和预测值的比较如表9所示。相关的图形比较显示在图3中。
表9 使用整体最佳模型预测与实际MW值
图2 调整后r²-值比较
图3 分子量的实际和预测值
重原子数回归模型分析
表10提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的重原子计数值集作为因变量。图4展示了这些回归模型的调整后r²值的图形比较。当我们分析表10中给出的调整后r²值时,很容易观察到M^e₁、ISI^e和M^e₂不变量在二次模型中提供最佳值,而其他不变量在线性模型中实现最适合的拟合。表11显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心几何算术指数是使用线性模型的最具预测性的指数。
表10 不同回归模型HAC的r²和调整后r²-值比较
表11 基于调整后r²值的HAC最佳回归模型
使用最佳预测指数对药物重原子数的实际值和预测值的比较如表12所示。相关的图形比较显示在图5中。
表12 使用整体最佳模型预测与实际HAC值
图4 重原子计数的调整后r²-值比较
图5 重原子计数的实际和预测值
复杂性回归模型分析
表13提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的复杂性值集作为因变量。图6展示了这些回归模型的调整后r²值的图形比较。当我们分析表13中给出的调整后r²值时,很容易观察到M^e₁和ISI^e不变量在二次模型中提供最佳值,而其他不变量在三次模型中实现最适合的拟合。表14显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心原子键连接性指数是使用三次模型的最具预测性的指数。
表13 不同回归模型CO的r²和调整后r²-值比较
表14 基于调整后r²值的CO最佳回归模型
使用最佳预测指数对药物复杂性的实际值和预测值的比较如表15所示。相关的图形比较显示在图7中。
表15 使用整体最佳模型预测与实际CO值
图6 复杂性的调整后r²-值比较
图7 复杂性的实际和预测值
沸点回归模型分析
表16提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的沸点值集作为因变量。图8展示了这些回归模型的调整后r²值的图形比较。当我们分析表16中给出的调整后r²值时,我们看到M^e₁和ISI^e在二次模型中提供最佳值,ABL^e和M^e₂在三次模型中提供最佳值,而其他不变量在对数模型中实现最适合的拟合。表17显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心几何算术指数是使用对数模型的最具预测性的指数。
表16 不同回归模型BP的r²和调整后r²-值比较
表17 基于调整后r²值的BP最佳回归模型
使用最佳预测指数对药物沸点的实际值和预测值的比较如表18所示。相关的图形比较显示在图9中。
表18 使用整体最佳模型预测与实际BP值
图8 沸点的调整后r²-值比较
图9 沸点的实际和预测值
蒸发热回归模型分析
表19提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的蒸发热值集作为因变量。图10展示了这些回归模型的调整后r²值的图形比较。当我们分析表19中给出的调整后r²值时,我们看到GA^e在线性模型中提供最佳值,ABC^e和χ^e在对数模型中提供最佳值,而其他不变量在三次模型中实现最适合的拟合。表20显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心Albertson指数是使用三次模型的最具预测性的指数。
表19 不同回归模型ENV的r²和调整后r²-值比较
表20 基于调整后r²值的ENV最佳回归模型
使用最佳预测指数对药物蒸发热的实际值和预测值的比较如表21所示。相关的图形比较显示在图11中。
表21 使用整体最佳模型预测与实际ENV值
图10 蒸发热的调整后r²-值比较
图11 蒸发热的实际和预测值
摩尔折射率回归模型分析
表22提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的摩尔折射率值集作为因变量。图12展示了这些回归模型的调整后r²值的图形比较。当我们分析表22中给出的调整后r²值时,我们看到M^e₂在二次模型中提供最佳值,χ^e在线性模型中提供最佳值,ABC^e在对数模型中提供最佳值,而其他不变量在三次模型中实现最适合的拟合。表23显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心Albertson指数是使用三次模型的最具预测性的指数。
表22 不同回归模型MR的r²和调整后r²-值比较
表23 基于调整后r²值的MR最佳回归模型
使用最佳预测指数对药物摩尔折射率的实际值和预测值的比较如表24所示。相关的图形比较显示在图13中。
表24 使用整体最佳模型预测与实际MR值
图12 摩尔折射率的调整后r²-值比较
图13 摩尔折射率的实际和预测值
极化率回归模型分析
表25提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的极化率值集作为因变量。图14展示了这些回归模型的调整后r²值的图形比较。当我们分析表25中给出的调整后r²值时,我们看到M^e₂在二次模型中提供最佳值,χ^e在线性模型中提供最佳值,ABC^e在对数模型中提供最佳值,而其他不变量在三次模型中实现最适合的拟合。表26显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心Albertson指数是使用三次模型的最具预测性的指数。
表25 不同回归模型PO的r²和调整后r²-值比较
表26 基于调整后r²值的PO最佳回归模型
使用最佳预测指数对药物极化率的实际值和预测值的比较如表27所示。相关的图形比较显示在图15中。
表27 使用整体最佳模型预测与实际PO值
图14 极化率的调整后r²-值比较
图15 极化率的实际和预测值
摩尔体积回归模型分析
表28提供了r²值和调整后的r²值,假设基于偏心率的不变量值集作为自变量,十六种药物的摩尔体积值集作为因变量。图16展示了这些回归模型的调整后r²值的图形比较。当我们分析表28中给出的调整后r²值时,我们看到M^e₂在二次模型中提供最佳值,χ^e在线性模型中提供最佳值,M^e₁和ISI^e在三次模型中提供最佳值,而其他不变量在对数模型中实现最适合的拟合。表29显示了每个自变量的最佳回归模型的统计分析。此分析包含p值、标准误差、F统计量、相关系数r、r²、调整后的r²和回归方程。这一统计检验表明,偏心Albertson指数是使用对数模型的最具预测性的指数。
表28 不同回归模型MV的r²和调整后r²-值比较
表29 基于调整后r²值的MV最佳回归模型
使用最佳预测指数对药物摩尔体积的实际值和预测值的比较如表30所示。相关的图形比较显示在图17中。
表30 使用整体最佳模型预测与实际MV值
图16 摩尔体积的调整后r²-值比较
图17 摩尔体积的实际和预测值
验证
为了验证我们回归模型的性能,我们考虑了五种冠状动脉疾病药物结构:缬沙坦、沙库巴曲、利伐沙班、培哚普利和替格瑞洛。这些药物结构的分子图显示在图18中。
图18 研究化合物的化学结构:(a) 缬沙坦,(b) 沙库巴曲,(c) 利伐沙班,(d) 培哚普利,和(e) 替格瑞洛
这些化合物的理化性质的实验值从ChemSpider和PubChem获取,并在表31中概述。通过使用基于偏心率的边分区程序,我们计算了药物结构的基于偏心率的不变量(见表32),并使用我们的回归模型来预测它们的性质。预测性能使用MAE和RMSE进行评估。实验模型预测值与观察值之间的比较(如表33所示)显示出紧密的对齐。这些结果表明,本研究中设计的线性、对数、三次和二次回归模型是评估冠状动脉疾病药物结构关键理化性质的可靠预测手段。
表31 药物的理化-化学性质
表32 药物分子的拓扑指数
表33 实验和预测值与误差指标
结论
贡献
本研究利用基于偏心率的边分区方法,计算了用于治疗冠状动脉疾病的药物的关联图不变量。在此检查中,开发了三次、二次、线性和对数模型,并比较了它们的预测性能。比较表明,大多数理化性质使用三次模型预测效果最好。二次回归分析显示,偏心几何算术指数是分子量的最佳预测指标,偏心Albertson指数紧随其后。偏心原子键连接性和偏心和连接性指数在线性回归中也显示出较强的预测能力,分别排名第三和第四。对于重原子计数,线性回归分析显示,偏心几何算术指数是最佳预测指标,其次是偏心Albertson指数。偏心原子键连接性指数在线性回归中,以及偏心第一Zagreb指数在二次回归中,分别排名第三和第四。对于复杂性,偏心原子键连接性指数是三次回归中的最佳预测指标,其次是偏心和连接性指数。偏心几何算术指数和偏心Albertson指数分别排名第三和第四。对于沸点,对数回归分析显示,偏心几何算术指数是最佳预测指标,紧随其后的是三次回归中的偏心Albertson指数。二次回归中的偏心第一Zagreb指数和偏心逆和指数分别排名第三和第四。对于蒸发热,三次回归分析显示,偏心Albertson指数是顶级预测指标,其次是线性回归中的偏心几何算术指数。三次回归中的偏心第一Zagreb指数和偏心逆和指数分别排名第三和第四。对于摩尔折射率和极化率,三次回归分析显示,偏心Albertson指数是顶级预测指标,其次是偏心几何算术指数。偏心第一Zagreb指数和偏心逆和指数分别排名第三和第四。对于摩尔体积,对数回归分析显示,偏心Albertson指数是顶级预测指标,紧随其后的是偏心几何算术指数。三次回归中的偏心第一Zagreb指数和偏心逆和指数分别排名第三和第四。这些结果通过帮助预测理化性质,从而帮助更有效地优化和识别潜在治疗药物,改进了冠状动脉疾病药物的开发。
研究意义
- 提高了摩尔折射率、沸点和其他基本理化性质的估计准确性。
- 建议了用于分子筛选和药物开发的可扩展工具。
- 提供了化学信息学在制药和材料科学中的应用。
局限性
- 对基于偏心率的指数的关注可能会忽略量子化学和立体效应,需要混合模型以获得更广泛的适用性。
- 本分析仅关注治疗冠状动脉疾病的药物,限制了对其他药物类别的可推广性。
- 标准环境要求和简单回归模型可能无法完全捕捉现实世界中的分子行为。
- 小数据集可能会增加回归模型中过拟合的风险,因此使用正则化策略至关重要。
未来研究
- 扩展数据集以包含各种分子图。
- 分析更多性质,如药代动力学、溶解度和毒性。
- 整合机器学习以提高预测性能。
- 检查在先进材料设计和药物发现中的实际应用。
数据可用性
本研究期间生成或分析的所有数据都包含在本出版物中。
【全文结束】


