利用语音基础模型进行咳嗽声音分析实现高负担环境下结核病的AI筛查AI-enabled tuberculosis screening in a high-burden setting using cough sound analysis and speech foundation models

环球医讯 / AI与医疗健康来源:arxiv.org赞比亚 - 英语2025-09-16 18:58:49 - 阅读时长4分钟 - 1974字
本研究基于500名参与者的咳嗽录音数据开发深度学习模型,结合语音基础模型与人口统计及临床数据,在区分结核病与非结核病例中达到92.1%的曲线下面积(AUROC)、90.3%灵敏度和83.1%特异性。模型通过对抗性测试验证声学特征特异性,支持其作为结核病分诊工具的应用潜力,需进一步跨区域验证以推动临床转化。
结核病健康AI筛查咳嗽声音分析语音基础模型多模态模型诊断准确性WHO标准HIV共感染模型鲁棒性
利用语音基础模型进行咳嗽声音分析实现高负担环境下结核病的AI筛查

摘要

背景

人工智能系统可检测咳嗽声音中与疾病相关的声学模式,为结核病(TB)筛查提供可扩展且具成本效益的解决方案,尤其适用于资源匮乏的高负担地区。然而既往研究受限于小规模数据集、症状性非结核患者样本不足、依赖简单机器学习模型以及理想化录音条件。

方法

在赞比亚两家医院招募512名参与者并分为三组:细菌学确诊TB(TB+)、症状性非TB呼吸道疾病(OR)和健康对照(HC)。最终获得500名参与者的可用咳嗽录音、人口统计和临床数据。基于语音基础模型的深度学习分类器经咳嗽录音训练后,预测诊断类别。表现最佳的3秒咳嗽片段分类器进一步结合人口统计及临床数据进行评估。

结果

纯音频分类器区分TB+与所有其他病例(TB+/Rest)的曲线下面积(AUROC)达85.2%,区分TB+与症状性OR病例(TB+/OR)的AUROC为80.1%。结合人口统计和临床特征后,TB+/Rest的AUROC提升至92.1%,TB+/OR达84.2%。在概率阈值0.38时,多模态模型对TB+/Rest的灵敏度90.3%、特异性73.1%,对TB+/OR的灵敏度80.6%、特异性73.1%。

解释

结合人口统计和临床数据的咳嗽声音分析模型表现优异,达到WHO结核分诊工具性能标准。对抗性测试和分层分析显示,该模型对背景噪音、录音时间和设备差异具有鲁棒性,表明其捕捉的是疾病相关声学特征而非人工干扰。需在不同地区和病例定义(包括亚临床TB)中进一步验证后方可临床部署。

引言

结核病仍是全球最严峻的健康挑战之一,2023年报告新发病例1060万例,死亡130万例。尽管可预防和治愈,但约25%的估计病例未被诊断和治疗。系统筛查对缩小病例检测缺口至关重要。然而当前WHO批准的筛查工具存在局限性:症状筛查灵敏度(71%)和特异性(64%)有限,胸片(CXR)需昂贵基础设施,CRP检测对HIV共感染人群更具诊断价值,分子快速诊断(mWRD)灵敏度仅69%且需复杂样本运输网络。

研究背景

既往研究

通过PubMed检索发现,既往四篇符合标准的研究均显示AI咳嗽分析模型表现优异,但存在方法学局限:样本量小、非TB症状患者纳入不足、使用简单机器学习模型、数据采集于理想静音环境。

本研究创新

开发基于500名参与者(TB+/OR/HC各组)的AI咳嗽分析模型,结合人口统计和临床参数的最佳模型AUROC达92.1%、灵敏度90.3%、特异性73.1%。通过背景噪音测试(AUROC 58.6%)验证模型依赖咳嗽本身而非环境特征。比较专业麦克风与手机录音性能差异,提示实际部署需考虑设备因素。

方法

研究设计与参与者

根据STARD指南进行横断面诊断准确性研究。在赞比亚卢萨卡两家医院招募500名参与者(TB+ 201例,OR 150例,HC 149例),按年龄和性别频数匹配。TB+组男性占比77%,反映男女性别比的流行病学特征。

数据采集

在隔音户外棚内使用RØDE M5麦克风和三星手机同步录音,保留咳嗽前后200ms声学上下文。TB+参与者录音后进行紫外线消毒。

模型开发

采用Wav2Vec2等语音基础模型构建多阶段分类管道,通过全局平均池化层、dropout(率0.5)和softmax输出层进行微调。集成学习将声学模型logits与人口统计(年龄、性别、BMI、症状)连接,逻辑回归作为元分类器。

结果

人口统计

TB+组平均BMI(19±3 kg/m²)最低,HIV共感染率(31%)高于OR组(34%)和HC组(12%)。

模型性能

Wav2Vec2(3秒音频)在TB+/Rest任务中AUROC达85.2%,结合全部特征后提升至92.1%。TB+/OR任务中,结合特征使AUROC从80.1%提升至84.2%。TB+/HC任务中模型实现100%灵敏度。

噪音测试

纯背景噪音测试AUROC仅56.2%,咳嗽训练模型在背景噪音测试中AUROC降至58.6%,证实模型依赖咳嗽特征而非环境噪音。

讨论

本研究证实基于语音基础模型的咳嗽分析在真实世界条件下的鲁棒性。多模态模型在TB+/Rest任务中达到WHO分诊工具标准(灵敏度>90%,特异性>70%)。关键发现包括:

  1. 时间窗口优化:3秒音频片段表现最佳,较既往0.5-1秒片段更优
  2. 设备适应性:手机录音性能稍逊于专业设备(TB+/Rest AUROC 91.2% vs 92.1%)
  3. HIV共感染:补充数据使HIV+亚组AUROC从81.5%提升至91.8%

研究局限:

  1. 未纳入亚临床TB病例
  2. 地理区域单一性
  3. 语音基础模型规模影响未充分评估

贡献者

研究由MK、MM、NM和GJB构思,数据收集和管理由SC等完成,模型开发由NM和BH主导,所有作者参与最终稿件审阅。

【全文结束】