WebRTC 语音激活检测(VAD)算法

语音激活检测最早应用于电话传输和检测系统当中,用于通信信道的时间分配,提高传输线路的利用效率。激活检测属于语音处理系统的前端操作,在语音检测领域意义重大。

但是目前的语音激活检测,尤其是检测人声开始和结束的端点始终是属于技术难点,各家公司始终处于能判断,但是不敢保证判别准确性的阶段。

常搭建机器人聊天系统主要包括以下三个方面:

  1. 语音转文字(ASR/STT)
  2. 语义内容(NLU/NLP)
  3. 文字转语音(TTS)

语音转文字主要包括如下几个方面:

  1. 麦克风降噪
  2. 声源定位
  3. 回声消除
  4. 唤醒词/语音激活检测
  5. 音频格式压缩

语音激活检测主要功能可以有:

  1. 自动打断
  2. 去掉语音中的静音成分
  3. 获取输入语音中有效语音
  4. 去除噪声,对语音进行增强

检测原理

WebRTC的VAD模型采用了高斯模型,这一模型应用极其广泛。

检测原理是根据人声的频谱范围,把输入的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~

你可能感兴趣的:(Audio,webrtc,算法,语音识别)