摘要
可解释人工智能(XAI)增强了人工智能模型的透明度和可解释性,这在医疗保健领域对于建立信任和问责制至关重要。XAI的一个潜在应用是利用各种数据模式进行疾病预测。本研究按照PRISMA协议进行系统性文献综述(SLR),综合分析了30项精选研究的发现,以考察XAI在疾病预测中的演变角色。文章探讨了常用的XAI方法,如沙普利加性解释(SHAP)和局部可解释模型无关解释(LIME),以及它们在疾病预测中对各医学领域的影响。该综述强调了几个关键差距,包括数据集多样性有限、模型复杂度高以及对单一数据类型的依赖,强调了提高可解释性和数据整合的必要性。解决这些问题对于推进医疗领域的AI发展至关重要。本研究通过概述当前挑战和潜在解决方案,为开发更可靠、更稳健的XAI方法提出了未来研究方向。
引言
人工智能(AI)一直走在变革医疗保健多个方面的前沿,如诊断、治疗和疾病预防。AI能够检测模式、预测、分类并从大规模高维数据中学习,表现出卓越的分析复杂数据能力,如医学图像、多模态生理特征和基因组序列。这些能力,加上令人瞩目的准确性,使AI模型有潜力协助医生和医疗专家做出更明智的决策。然而,AI模型的准确性往往源于模型复杂度的增加,从而导致"黑箱"标签[1]。在AI中,"黑箱"一词用于描述非常复杂且难以解释的模型。AI模型最大的挑战之一是它们产生输出而不说明背后的逻辑。这使得逻辑难以解释和说明,难以识别错误、偏见或不一致性[2]。这一挑战使医疗专业人员难以信任在医疗环境中使用AI,同时也引发了伦理问题,如AI模型的责任和问责问题[3]。
包括机器学习(ML)和深度学习(DL)算法在内的AI模型,在其输出的合理性方面可能透明度和可解释性有限,因此向可解释人工智能(XAI)的转变日益明显。过去十年中,XAI的出版物数量显著增加[3]。XAI是AI的一个子领域,它融合了结果的透明度、可解释性和可解释性。在XAI的背景下,Doshi-Velez和Kim将"可解释"定义为"以人类可理解的方式解释或呈现"[1, 4]。可解释性则被定义为理解模型为得出特定结论而采取的内部过程和步骤[1]。然而,重要的是要强调,模型的可解释性在很大程度上取决于给定任务[3]。
XAI方法增强了对AI模型的理解,使用户能够全面了解模型的优势、局限性和假设。此外,XAI可能通过提供更清晰的见解,了解AI模型如何得出结论,从而对疾病预测产生重大影响,使医疗专业人员能够基于这些预测做出更明智的决策。XAI在医疗保健中的应用示例包括从组织病理学图像进行结直肠癌诊断,其中提取和分析重要特征,以及使用DaTSCAN图像早期检测帕金森病[5, 6]。尽管XAI在促进医疗环境中的决策方面具有潜力,但由于对模型缺乏信任和理解,XAI在临床实践中的整体整合一直缓慢且有限。因此,解决这些模型的局限性可以进一步增强临床医生和医疗专业人员的信任和理解。
虽然有一些评论文章涉及可解释性,但重要的是要强调,没有一篇专注于医疗保健中的疾病预测和识别应用,这是一个具有潜在AI影响的重要领域。例如,最近的一项研究强调了共病而非个别疾病的预测[7]。此外,先前关于XAI的文献综述涵盖了医疗保健中更广泛的应用,如医学领域[8, 9],而其他研究则专注于特定疾病,如阿尔茨海默病[10]。我们的综述特别针对各种疾病的XAI进行疾病预测。这一重点使我们能够更全面地分析XAI在增强多种医疗条件下疾病预测方面的作用。因此,在文献中存在一个空白,需要对当前关于XAI方法在疾病预测中使用的文献进行全面综述。
AI正在越来越多地改变医疗保健,特别是在诊断、治疗计划和疾病预测方面。然而,大多数AI模型作为"黑箱"运行,使医疗专业人员难以理解决策过程。这在关键医疗情况下引发了对问责制、可解释性、可用性和信任的担忧[1, 3]。因此,人们对可解释AI(XAI)的兴趣日益增加,其旨在增强医疗专业人员对AI决策的透明度和可理解性[4]。
通过XAI可以获得对AI驱动预测的见解,这将最终通过使医生能够更可靠地采用和评估模型输出,提高医疗保健中AI的安全性和可靠性[2]。尽管XAI具有潜力,但它在临床实践中仍未得到广泛使用,特别是在疾病预测方面[5]。本综述侧重于XAI在医疗保健中的应用,特别是增强医疗专业人员对基于AI的疾病预测模型的理解和适用性。本综述旨在识别和分析该领域内现有的差距和局限性。这一系统性文献综述旨在探索现有文献,研究在预测疾病时使用XAI方法的情况,其中使用了不同的模态,如医学图像和信号。本研究的研究问题如下:
- Q1. 目前在不同医疗模态(如影像、生理信号)的疾病预测中应用的关键XAI方法有哪些?
- Q2. 现有XAI方法在增强疾病预测模型的透明度和可解释性方面面临的主要局限性和挑战是什么?
理论背景
XAI在疾病预测中的相关工作
XAI在预测疾病方面的现有文献理论背景包括各种方法和应用。随着AI模型变得越来越复杂并成为疾病预测和诊断的重要组成部分,XAI在医疗保健中变得越来越重要。XAI的总体目标是使AI决策过程透明和可理解,这在医疗保健这样敏感的领域至关重要[7]。在疾病预测中,XAI解决了许多AI模型本质上的挑战。这涉及开发能够在人类可理解的术语中解释AI模型如何得出结论的方法。这种透明度对于获得医疗专业人员的信任以及遵守医疗实践中的监管标准和伦理考虑至关重要。
文献揭示了各种XAI方法。虽然SHAP和LIME因其提供局部和全局可解释性的能力而突出,但其他方法如梯度加权类激活映射(Grad-CAM)、部分依赖图(PDP)和反事实解释也为理解AI决策做出了贡献[11]。每种方法都提供独特的见解,有些提供视觉解释或突出影响模型预测的特定特征。XAI在医疗保健中的重要性进一步通过其在各种疾病中的应用得到强调。从癌症检测到心血管疾病,使用XAI方法对于阐明AI预测至关重要,有助于更准确的诊断和定制治疗。这在个性化医学中尤其重要,因为理解影响模型预测的特定因素可以带来更有效的患者特定干预措施。
在各种方法中,LIME(局部可解释模型无关解释)和SHAP(沙普利加性解释)已成为破解复杂模型的突出工具。这些方法提供了关于AI模型(尤其是基于深度学习的模型)如何得出预测的见解,从而解决了这些模型的"黑箱"性质[8]。在一项研究中,基于网络和移动的糖尿病诊断平台使用LIME和SHAP展示了XAI在实际医疗应用中的整合。LIME擅长通过近似特定实例中模型的预测来提供局部可解释性,但它可能难以在不同数据集之间保持一致性,并且对于大型模型可能计算成本高[3]。LIME还用于基于脑电图的机器学习模型进行中风预测,专注于脑波分析,展示了其在神经学背景下使复杂模型可解释的效用[13]。另一方面,SHAP提供了一种计算每个特征对模型输出贡献的一致方法,使其特别适用于特征归因,尽管它可能计算量大[1]。例如,SHAP已应用于早期帕金森病检测,它突出了重要的生物标志物,有助于基因表达数据模型的可解释性[6]。最近的研究越来越多地同时应用LIME和SHAP,以增强医疗诊断中AI预测的可解释性。这种双重方法利用了两种方法的优势——LIME提供局部可解释性的能力以及SHAP在整个模型中分配一致特征重要性值的能力。
与专注于特定疾病不同,本系统性文献综述区别于针对XAI在预测中的广泛应用而解决各种条件。这种全面的方法使我们能够识别独特的差距并提出针对各种医疗领域的专业解决方案。我们深入研究了XAI的方法论方面,强调了在各种疾病预测中使用这些技术的独特机会和挑战。通过整合不同条件的解决方案,我们的综述拓宽了该领域的研究范围。它还为解决已确定的差距和医疗诊断中更针对性、更有效的XAI解决方案的特定需求提供了坚实框架。
研究方法
几本健康期刊和数据库是关于XAI在预测疾病中作用的丰富文献来源。进行系统性搜索对于从可信作者那里识别可靠研究至关重要,重点关注过去十年发表的研究。在这种情况下,搜索优先考虑过去五年发表的研究,这标志着AI技术在医疗保健中用于预测疾病发生的采用激增。此外,还对作者的资历、样本量、使用的研究方法、使用的理论框架以及主题重点给予了重大考虑,以提高数据的相关性、有效性和可靠性。本研究采用系统性文献综述(SLR),采用透明和严格的方法综合研究结果,以评估和减少数据中的偏差。
在这种情况下,通过使用关键方法论对XAI预测疾病的相关主题进行识别、定义和评估,进行了文献的学术综合。对于研究XAI在预测疾病中的应用,SRV是最受青睐的研究设计,因为它所附加的重要性。例如,研究范围需要对过去和现有发现进行适当的调查,以揭示XAI和其他AI应用在医疗保健中的优势。具体来说,SLR采用更科学、可重复和透明的方法进行数据收集和分析,并为研究人员提供更具体和清晰的指南,以审查和呈现结果。同样,与其他研究设计相比,它错误和偏差较少,因为它提供高质量的证据,同时为研究人员的方法、推论和方法留下透明的审计跟踪。因此,它从已发表的研究中提取数据,然后进行分析、描述、批判性评估和总结解释,得出基于证据的结论。
SLR方法促进了对医疗保健中XAI不断发展的景观的更深入了解。它允许探索不同的研究方法和理论框架如何影响XAI在疾病预测中的发展和应用。这一全面的综述突出了当前的最新状态,并确定了现有文献中的差距,提出了未来研究的方向。所审查研究的多样化方法和不同的主题重点突显了医疗保健中XAI的多面性,指向一个未来,在这个未来中,AI在疾病预测中的角色不仅在技术上先进,而且在伦理上健全并在临床实践中被广泛接受。
实施了主题方法进行数据收集和分析,根据研究对疾病预测的贡献、使用XAI技术的方法(如SHAP、LIME)以及临床应用对研究进行分类。这种方法确保了结果的准确性、一致性和与研究目标的相关性。
规划综述
研究人员投入大量时间进行彻底的头脑风暴会议,研究进行系统性文献综述的现有方法。通过广泛阅读和与从事类似研究的同行协商完成了这项任务,以确保完全遵守进行系统性文献综述所需的步骤和过程。
在此阶段,特别强调研究伦理,特别是关于尊重先前研究人员的知识产权(适当的引用以防止抄袭)。会议通过协议审查、研究问题和目标文档成功结束。作为最佳实践,在开始之前概述了综述协议,以最小化计划外研究重复的风险,并促进协议和方法之间的一致性和透明度。
搜索字符串
进行了系统性文献综述,以识别有关XAI在疾病预测中的相关研究。综述强调了2014年至2023年发表的研究,这些研究指出了AI当前在医疗保健中的使用方式以及最近的发展情况。进行了为期十年的搜索,以确定XAI在医疗诊断应用领域的最新进展。
为了解决RQ1和RQ2,我们使用PRISMA指南进行了系统性文献综述(SLR)。我们的搜索包括Scopus、PubMed和Web of Science等数据库,针对2018年至2023年发表的研究,这些研究将XAI应用于疾病预测。优先考虑这些数据库是因为它们全面涵盖了综述论文、同行评审文章和会议记录。搜索查询包括与XAI和疾病预测相关的关键词组合,例如:"disease diagnosis" AND "machine learning","XAI" AND "healthcare AI",以及"Explainable Artificial Intelligence" AND "disease prediction"。应用的其他搜索关键词包括predicting disease、disease diagnosis、disease recognition、XAI in disease diagnosis和predictive AI,采用布尔表达式'OR'和'AND'。
使用XAI技术,根据文章对疾病预测的贡献程度评估文章,重点关注Grad-CAM、SHAP、LIME和其他技术。这种方法确保我们获得了适当的研究来调查XAI的优势和劣势。这一规划阶段为文献综述奠定了坚实的基础。它确保研究基于最新和最相关的研究,为医疗保健中的XAI提供了当代视角。使用PubMed和Scopus等知名数据库保证了获得高质量和同行评审的文章,增强了研究结果的可信度。此外,仔细选择搜索关键词并战略性地使用布尔表达式,实现了全面而有针对性的文献检索过程。这种方法简化了综述过程,并确保捕捉到了与疾病预测中XAI相关的广泛视角和发现,以便进行丰富而有见地的分析。
进行综述
研究人员彻底搜索了数据库,最初确定了76篇文章。这一初步选择作为一个广泛的池,用于筛选和选择最相关的研究。为确保与研究目标一致,根据每篇文章的摘要、标题和关键词对其进行了仔细审查。这一筛选过程对于确定每项研究与综述总体主题的相关性至关重要。
随后,研究人员应用了特定的纳入和排除标准,进一步完善了文章的选择。由于这一严格的过滤过程,总共排除了46篇论文,原因各不相同。其中8篇论文被排除,因为它们在Scopus和PubMed数据库中找不到,表明它们可能未达到所需的学术标准或相关性。此外,7篇论文因是会议论文而被排除,这些论文可能经历了与期刊论文不同的同行评审水平。2篇论文因不含结果而被排除。12篇论文被认为与预测疾病的核心主题无关,这表明在系统性综述中主题一致性的重要性。最后,3篇论文因使用英语以外的语言而被排除,这可能由于语言障碍而阻碍了彻底和准确的分析。
结果与发现
已审查文章的描述性分析
对论文的分析显示,30篇文章发表在26种不同的期刊上。图2展示了按期刊划分的出版物数量。《Computers in Biology and Medicine》期刊发表了3篇文章,而《Nature Communications》和《Nature Portfolio Scientific Reports》各发表了2篇文章。其余23种期刊各发表1篇文章。
此外,如图3所示,从2019年到2023年,出版物数量有所增加,2023年达到13篇出版物的峰值,其次是2022年的9篇。2019年仅发表1篇文章,反映了从2019年到2023年的逐步增加(2019年1篇,2020年5篇,2021年2篇,2022年9篇,2023年13篇)。总体而言,2022年和2023年特别多产,占审查期间出版物的80%。
2019年之前的出版物分布明显稀疏,只有3.33%的论文在此之前发表。从2020年开始观察到兴趣的显著上升,该年发表了16.67%的论文。随后几年显示出版量波动但总体呈上升趋势:2021年10%,2022年显著跃升至30%,2023年达到峰值40%。这一趋势凸显了近年来在医疗诊断中对XAI技术日益增长的参与度。
来自六大洲29个国家的作者发表了与XAI相关的文章。图4显示了基于作者国家的出版物百分比,美国贡献最高,占7.5%,其次是埃及、印度、沙特阿拉伯、孟加拉国、英国、意大利和中国,各占6%。大多数国家贡献在2%到5.5%之间,大多数为2%。
研究结果与分析
本节综合了对30篇同行评审文章关于XAI在医疗诊断中应用的系统性文献综述(SLR)的发现。图5显示了所审查研究中使用的各种XAI方法。SHAP是最常使用的方法,占出版物的38%,其次是LIME,占26%。其他方法,包括Grad-CAM、模糊逻辑和部分依赖图(PDP),在5%的研究中各使用一次。此外,一些方法——如Eli5、遗传编程、GSInquire、学习深度表示的可视化、CAD注意力图、逐层相关传播(LRP)和DALEX——使用极少,各占出版物的1%。
图5突显了SHAP和LIME在提高糖尿病、缺血性中风和各种癌症等疾病AI模型可解释性方面的主导作用。此外,所调查的文献表明探索了替代XAI技术,这些技术有助于完善诊断精度。值得注意的是,如[15]所报告的遗传编程在结节病诊断中显示出前景,而模糊逻辑的实施在评估阿尔茨海默病方面发挥了重要作用,如[21]所讨论的。
表1全面概述了应用于不同数据模态疾病诊断的AI模型,包括缺血性中风的脑电图信号、新冠肺炎的胸部X光片和前列腺癌的基因表达谱。每项研究,如[12]的糖尿病诊断[16],冠状动脉疾病的预测模型,以及[26]宫颈癌的预后方法,都展示了AI在医疗保健中的适应性。
图6将研究的疾病分为七个主要类别:心血管疾病、癌症和肿瘤、神经系统疾病、传染病、代谢和内分泌疾病、呼吸系统疾病和其他疾病。心血管疾病包括缺血性中风、冠状动脉疾病和心肌梗死,而癌症涵盖白血病、乳腺癌、结肠癌和前列腺癌等疾病。帕金森病和阿尔茨海默病等神经系统疾病也很突出。传染病包括新冠肺炎、肺炎、结核病和肝炎。结节病和急性危重疾病等其他疾病进一步强调了XAI应用的广泛范围。
这种综合分析,如图6所示,展示了医疗研究固有的复杂性以及XAI在解决各种诊断挑战方面的广泛潜力。它反映了影响人类的各种健康问题,强调了在健康科学中需要适应性和创新性方法。这种全面的分类突显了XAI在跨广泛医疗领域转变诊断方面可以发挥的重要作用,增强医疗保健中AI驱动解决方案的准确性和可解释性。
根据我们的综述,SHAP(38%)和LIME(26%)是用于疾病预测(特别是诊断癌症和心血管疾病)最广泛使用的XAI算法。虽然LIME已应用于包括影像数据的神经学和癌症研究,但SHAP通常用于帕金森病等疾病的基因表达研究。
我们的综述确定了所审查论文中的几个局限性集合。最严重的问题之一是缺乏不同的数据集——大多数模型依赖于单一模态数据,这降低了结论的普遍性。此外,临床医生报告了理解XAI模型结果的挑战[40]。这强调了迫切需要更易接近的工具和改进的XAI技术培训。
综述发现XAI与多模态输入(如遗传、生理和影像数据)以及复杂医疗数据集的整合趋势日益增长。一项使用SHAP的前列腺癌研究证明了该方法如何从患者数据中突出重要成分,以协助个性化治疗决策。然而,研究结果也表明文献中存在各种差距,包括缺乏多样化数据集以及需要改进用户界面,以便医生能够成功理解AI输出。
讨论与启示
对所审查论文的描述性分析显示,医疗领域对XAI的兴趣显著且不断增长,这从2019年到2023年出版物的稳步增加中可见一斑。这种激增凸显了医疗部门对透明AI系统的迫切需求,特别是用于疾病预测和诊断。XAI重要性的全球认可体现在各种期刊和作者的广泛地理分布上,贡献跨越亚洲、欧洲和美国。这表明XAI正成为不同医疗系统中的基本工具,SHAP和LIME成为最突出的方法,在超过一半的审查研究中使用。它们在增强AI模型可解释性方面的有效性已得到充分证实,但继续探索其他方法反映了XAI的演变性质,突显了在实现最佳可解释性方面创新和改进的空间。
近年来特别是2022年和2023年出版物的集中表明,该领域正在迅速应对医疗保健中AI技术日益增长的复杂性。这一转变表明该领域正在成熟,但也指出了需要进一步完善和发展XAI模型,以确保其在临床环境中的实际应用。研究的地理分布突显了全球医疗系统如何认识到XAI的潜力,但也强调了地区之间研究产出的差异,亚洲和欧洲领先,而其他大陆则代表性不足。这呼吁更多合作努力,以确保所有地区公平获得XAI进展。
这些发现的意义重大。文献数量的增加反映了医疗部门对更广泛采用XAI技术的准备,但挑战仍然存在。迫切需要XAI方法的标准化以及制定综合指南,以促进其整合到临床工作流程中。此外,随着XAI越来越多地融入医疗保健,必须实施教育举措,使临床医生掌握有效解释AI辅助诊断的技能[7]。研究中使用的各种XAI方法表明,该领域正处于进一步研究和发展的风口浪尖。未来的创新可以专注于提高模型准确性、减少计算开销、自动化偏差,并针对特定医疗条件以增强诊断精度[41]。
随着AI在医疗保健中扮演越来越重要的角色,建立强大的政策框架和监管指南对于确保XAI技术的伦理和安全部署至关重要。没有明确的标准,这些工具的整合可能会面临重大障碍。本综述的发现强调了持续研究、监管监督和跨学科合作的迫切需要,以推进XAI在转变医疗保健服务方面的作用。
结论
总之,这一系统性文献综述提供了对医疗保健领域疾病预测中XAI当前状态的详细分析。综述强调了SHAP和LIME等方法的日益采用,这些方法在增强用于复杂医疗诊断的AI模型的可解释性和透明度方面发挥着关键作用。
我们的研究结果表明,从2019年到2023年,相关出版物显著增加,反映了医疗保健中对可解释AI系统的日益需求。这一趋势凸显了XAI在支持医疗实践中更明智和负责任的决策方面的重要性。尽管取得了这些进展,挑战仍然存在——特别是需要更多样化和全面的数据集,以提高XAI模型的普遍性和公平性。模型复杂性与可解释性之间的权衡也依然存在,需要持续努力开发既复杂又便于医疗从业者使用的AI系统。虽然XAI正在医疗领域迅速获得关注,但其全部潜力尚未实现。未来的研究应专注于通过探索更多样化的数据源、简化AI模型的复杂性以及确保其在不损害性能的情况下实际整合到临床环境中来填补这些空白。此外,继续评估XAI在现实世界中的应用对于确定其对医疗保健的长期影响至关重要。
本综述有助于更好地理解医疗保健中XAI的当前格局,为未来研究提供基础,并指导医疗专业人员和AI开发人员负责任和有效地实施AI技术用于疾病预测和诊断。它旨在指导医疗专业人员和AI开发人员朝着负责任和有效的AI技术实施方向发展,最终提高医疗服务质量与效率。
本综述的一个显著局限性是排除了基于大型语言模型(LLM)的解释方法,这些方法近年来获得了关注。鉴于我们的研究基于在特定时间段内发表的文献,我们数据集中尚未反映LLM驱动的可解释性的许多进展。未来的研究应探索LLMs在增强可解释性方面的作用,特别是在多模态医疗应用中,以评估其对信任、可用性和临床决策的影响。
【全文结束】


