超有料！咳嗽音检测新冠肺炎技术原理公布

misa2 03-25 5次浏览 0条评论

近日,引发大量关注的通过咳嗽音检测新冠肺炎的技术开发者“小豚聆听”公布了其技术原理,干货满满。据悉该技术是由中国科学院声学研究所、北京地坛医院、北京大学第三医院、大连市公共卫生临床中心、北京环宇瑞声科技有限公司等共同研制开发。

新冠肺炎患者的一般症状包括发烧、咳嗽等,研究表明肺部病变对人的发声方式产生了一定的影响,因而人的唤吸系统音如唤吸音、语音、咳嗽音等在一定程度上可以作为肺部病变与否的一种表征。之前有研究利用咳嗽音来检测哮喘、百日咳等患者并取得了较好的分类性能,这阐明利用咳嗽声区分肺炎患者与健康人是可行的。

通过对比新冠肺炎患者和健康人咳嗽声的时域波形及频谱发现,新冠肺炎患者的咳嗽声通常继续时间较长,部分伴有稍微的颤音,在频谱上表现在能量集中在中低频区域;而健康人的假性咳嗽平均时长短于肺炎患者,能量在频带上分布较为均匀。对比健康人和肺部疾病患者咳嗽音的声学特征发现在统计特性和频谱上存在一定的差异。以新冠肺炎患者和健康人的咳嗽声为例,具体展开如下:

(1)过零率:下图中红色点表达健康人咳嗽声的过零率分布,蓝色点表达新冠患者咳嗽声的过零率分布。健康人的咳嗽声过零率平均值为0.17,而新冠患者的平均值为0.23,从这一维度的特征可以将一部分患者区分出来。存在差异的原因可能为新冠患者在录制咳嗽时声音存在一定的抖动,导致过零率略高于健康人(见下图)。

展开全文

过零率(红色点表达健康人咳嗽声,蓝色点表达新冠患者咳嗽声)

(2)平均能量:健康人咳嗽能量平均值2.08*1e7,新冠患者咳嗽能量平均值为1.19*1e7。从常理角度看,新冠患者咳嗽声较为虚弱,因此能量偏低,与理论是一致的(见下图)。

平均能量(红色点表达健康人咳嗽声,蓝色点表达新冠患者咳嗽声)

(3)强度:强度与能量存在一定的对应关系,同样表现为健康人的平均值高于新冠患者,健康人平均值12461,新冠患者平均值为6795(见下图)。

强度(红色点表达健康人咳嗽声,蓝色点表达新冠患者咳嗽声)

(4)振幅抖动:指声音信号相邻周期之间振幅的微小转变,反映嗓音的嘶哑程度。健康人平均值0.447,新冠患者平均值0.546,能够在一定程度上反映发声的稳定性。与过零率相对应,健康人的发声平稳性较强,抖动较少(见下图)。

振幅抖动:(红色点表达健康人咳嗽声,蓝色点表达新冠患者咳嗽声)

(5)其他一些特征也存在一定的差异,例如频谱质心、色度图谱、声谱衰减等(见下图)

(6)传统统计特征如过零率、短时能量等特征用于语音信号处理中的其他任务, 通过按照句子级别的特征提取方式对每一条音频提取相应的特征,通过对比具有不同分类性能且能够互补的特征进行组合。仅从单一维度的特征可能无法实现很好的分类性能,通过PCA降维、特征聚类等方式探究不同特征的组合来提升分类性能(见下图)。

多维特征进行聚类降维

(7)从频谱图角度进行对比,发现健康人的咳嗽能量在整个频带上分布较为均匀;而哮喘和肺炎患者的能量较多的集中在低频区域,高频能量较少;新冠患者的咳嗽能量则在低频区域与健康人存在较大的差异。(见下图)

进一步对比更多健康人和新冠患者咳嗽能量的频谱图差异可以发现,正常人咳嗽音相对继续较短,低频和高频能量更重,同时底层谐波相对更加明显;新冠患者咳嗽音相对继续时间段,或者底层因为肺部失往弹性,低频没有较明显的谐波特征(见下图)。

健康人与新冠患者咳嗽音频谱对比

针对以上差异我们设计实现了基于残差注重力时延神经网络,通过检测咳嗽音推断是否为新冠肺炎患者。首先,将输进的语音进行前端处理,通过预先练习好的声音事件检测模块往除静音及部分噪音片段,之后通过咳嗽音判别模块推断一段音频是否为咳嗽音。删除咳嗽音以外的其他无关、骚乱音频片段,是为了仅将得到的有效咳嗽音输进神经网络进行练习和测试。在得到较为干净的咳嗽音片段之后,提取咳嗽音的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)参数,然后将MFCC特征送进残差注重力时延神经网络,最后对网络输出的结果进行判别,输出是否是疑似肺炎患者(见下图)。

基于残差注重力时延神经网络

算法的核心是残差注重力时延神经网络,上图展示了残差注重力时延神经网络结构。针对肺炎患者与正常人咳嗽音的区别,首先使用两层TDNN[7]网络以提取时间维度上的音频信息。为避免深度神经网络随着网络层数加深而产生的梯度消失问题,在后续网络结构中引进残差结构,同时结合注重力机制实现对特征的加权激励,构成网络中的残差时延神经网络结构(Residual Time Delay Neural Network, RES_TDXN)。紧接着我们在RES_TDXN后端挂接两层TDNN,以获得固定长度的鲁棒的音频特征,最后通过全连接层及softmax激活函数进行分类,输出咳嗽音所属者是肺炎患者的概率(见下图)。

对以上神经网络得到的特征图进行可视化可以发现,特征图将原始咳嗽谱图中咳嗽片段的部分给予了更高的权重,也就意味着模型依据这一部分特征的差异性进行模型优化和最终分类,尽可能提高模型分类的正确性(见下图)。

要害技术:

(1)咳嗽音语谱分析与检测:

运用适当的信号处理技术和深度神经网络技术可以对新冠咳嗽声进行提取、区分。引进环境信息,结合DNN-LSTM混合神经网络,提升VAD正确率。

(2)多维鲁棒特征提取

利用可学习的低通池化模块代替传统的MEL滤波器组,使模型更为自由的选取潜在特殊特征。

(3)分类建模及数据增强

研究基于轻型卷积神经网络的小样本学习方法以及基于神经网络架构搜索(NAS)的建模技术。

(4)综合决策与诊断

摘用多语音要素综合分析进行决策,利用图神经网络对复杂关系的强学习能力,智能化替代人工决策过程,建立综合决策模型,最终通过网络决策给出诊断结果。

超音鼠

某音的月使用人均超33个小时 EPOS H3 Hybrid耳机体验：扎实性能表现，游戏、听音超舒适！