语音信号的端点检测(VAD)

1.端点检测的目的及意义

1.1目的 

       从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面

1.2意义

       有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率

2.基于短时能量和短时平均过零率的双门限端点检测

2.1短时解释

      在“短时间”范围内可以认为语音信号是稳态的,时不变的,这个短时间一般指10~30ms

      在短时分析中,将语音信号分为一段一段地来分析其特征参数,其中每一段称为一帧,帧长一般取10~30ms。这样,对于整体的语音信号来讲,每一帧特征参数组成了特征参数时间序列

       为了使得语音帧之间有一个平滑的过渡,一般帧与帧之间有一定的重叠。语音分帧图如下:

语音信号的端点检测(VAD)_第1张图片

 2.2短时能量

       设语音波形时域信号为(),加窗函数()分帧处理后得到的第i帧语音信号为y_i (n)满足:

其中,()为窗函数, y_i (n)是一帧的数值, 为帧长, 为帧移, f_n 为分帧后的总帧数。

计算第i帧语音信号y_i (n)的短时能量公式为

语音信号的端点检测(VAD)_第2张图片

     短时能量的作用:语音检测(有语音时,能量大,无语音时,能量小),区分清浊音(浊音的短时能量普遍大于清音)

2.3短时平均过零率

      短时平均过零率表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零率即意味着时域波形通过时间轴;对于离散信号,如果相邻的取样值改变符号,则称为过零。短时平均过零率就是样本数值改变符号的次数。

      定义语音信号()分帧后为y_i (n),帧长为,短时平均过零率为:

语音信号的端点检测(VAD)_第3张图片

 短时平均过零率的作用:区分清音和浊音:浊音段平均过零率低,集中在低频段;清音平均过零率高,集中在高频段。从背景噪声中找出语音信号,可用于判断无话段与有话段的起点和终点位置。在背景噪声较小时,用平均能量识别较为有效;在背景噪声较大时,用短时平均过零率识别较为有效。

2.4双门限判决步骤

2.4.1第一级判决

①根据在语音短时能量包络线上选取的一个较高阈值(门限)2(图中以虚水平线表示)进行一次粗判,就是高于该2阀值肯定是语音(即在CD段之间肯定是语音),而语音起止点应位于该阀值与短时能量包络交点所对应的时间点之外(即在CD段之外)

②在短时能量上确定一个较低的阈值(门限) 1(图中以实水平线表示),并从C点往左、从D点往右搜索,分别找到短时能量包络与阀值1相交的两个点BE,于是BE段就是用双门限法根据短时能量所判定的语音段的起止点位置。

语音信号的端点检测(VAD)_第4张图片

 

2.4.2第二级判决

       以短时平均过零率为准,从B点往左和从E点往右搜索,找到短时平均过零率低于某个阈值(门限)3的两点AF(图中3以水平虚线表示)A点和F点便是语音段的起止点。

2.4.3判决结果

根据这两级判决,求出了语音的起始点位置A和结束点位置F;

但考虑到语音发音时单词之间的静音区会有一个最小长度表示发音间的停顿,就是在小于阈值3满足这样一个最小长度后才判断为该语音段结束,实际上相当于延长了语音尾音的长度;

如图在语音波形图上标出语音的起止点分别为AF+(从图中看出终止点位置为F,而实际处理中延长到F+)

在端点检测的具体运行中,首先是对语音信号分帧,在分帧后求出短时能量和短时平均过零率,然后对每一帧信号依阈值进行比较和判断。

语音信号的端点检测(VAD)_第5张图片

 

你可能感兴趣的:(语音识别,人工智能,matlab,信号处理,算法)