苹果研究团队发布了一项非常有趣的研究,探讨了AI模型是否可以从听诊录音中估计心率,尽管这些模型并没有为此目的进行专门训练。简短的答案是:可以。这是一条非常好的消息。原因如下。
简而言之,研究团队选取了六个流行的音频或语音基础模型,并测试了它们内部的音频表示在从心脏声音记录(即心音图)中估计心率的效果如何。
事实是:尽管这些模型并不是为处理健康数据而设计的,但结果却出奇地好。大多数模型的表现与依赖手工制作音频特征的传统方法相当,这些手动工程的方法长期以来一直用于传统的机器学习模型中。
但最有趣的部分是什么?苹果自家的内部模型,一个基于CLAP(对比语言-音频预训练)并使用300万个音频样本进行内部训练的版本,实际上超过了基线,并在各种模型比较中表现出最佳的整体性能。
测试是如何进行的?
这些模型使用了一个公开的数据集进行评估,该数据集包含超过20小时的真实医院心脏声音,由专家标注(这对于良好的AI研究和性能至关重要)。
为了训练这些模型,苹果将录音分割成5秒的短片段,每次向前移动一秒。这总共产生了大约23,000个心脏声音片段,然后苹果训练了一个神经网络来将心率分类为每分钟心跳数。
有趣的是,一些发现与典型的AI假设相反:更大的模型并不总是表现更好。更具体地说,这些模型的深层往往编码较少有用的循环呼吸信息,可能是因为它们被优化用于语言。浅层或中层表示通常效果最好。
这是研究的一个关键见解。因为现在苹果知道了在这些模型内部应该寻找哪些部分,以及使用哪些层来提取最相关的健康信号,如果(或者说当)它决定将其分析带到设备上时。
主要结论
研究的一个主要结论是,结合传统的信号处理和下一代AI可以得到更可靠的心率估计。这意味着,在一种方法遇到困难时,另一种方法往往可以填补空白。基本上,这两种方法能够捕捉到信号的不同部分。
展望未来,研究人员表示他们计划继续改进这些模型以应用于健康领域,构建可以在低功耗设备上运行的轻量级版本,并探索其他可能值得关注的身体声音。用他们自己的话来说:
“未来,我们计划:(i) 探索将声学特征与FM表示相结合,通过在下游模型之前进行特征连接或在模型内通过后期融合方法,以提高性能并研究这些方法是否能够捕获互补信息并更好地应对个体差异;(ii) 研究对目标领域的微调以减少领域不匹配,并探索这种适应是否能提高性能、更好地缓解HR估计的挑战并捕捉复杂的病理特征;(iii) 评估它们在其他下游任务和生理参数中的适用性,包括病理性条件;(iv) 增加和适应更多具有临床意义的数据;(v) 将其与其他生物声学基础模型(如HeAR [30])进行比较;(vi) 探索简化模型的策略,如剪枝、蒸馏和轻量级编码器设计,以实现计算成本较低但仍保持性能的可部署解决方案。”
这项研究显然没有做出任何临床声明或产品承诺。然而,显而易见的是,苹果有可能将这些模型嵌入iPhone、Apple Watch,尤其是AirPods中,后者依靠耳内麦克风进行主动降噪。如果你曾经戴着AirPods听到自己的心跳声,你就会明白我在说什么。
你可以在这里阅读完整的论文。
(全文结束)


