音频筑基:巴克谱和梅尔谱辨析

音频筑基:巴克谱和梅尔谱辨析

    • 是什么
    • 深入了解
    • 相关参考

在音频信号处理中,巴克谱和梅尔谱是我们经常遇到的概念,也是语音处理中常用到的频域特征,这里谈谈自己对它们的理解。

是什么


巴克谱又称Bark Spectrum,梅尔谱又称Mel Spectrum,其中异同梳理如下:

  • 相同点:
    • Bark谱和Mel谱都是将线性频谱映射到非线性谱上的表征,根据不同频带的感知能力来划分,但它们的核心思想不同。
    • 这两种谱都是语音信号处理中常用的特征提取方法,它们可以用于基频、降噪、编解码、特殊声音检测等领域。
  • 不同点:
    • 机理不同:
      • BFCC(Bark-Frequency Cepstral Coefficents),人耳对响度感知灵敏度确定的频带划分方法, amplitude/loudness
      • MFCC(MelScale-Frequency Cepstral Coefficents),人耳对音高感知灵敏度确定的频带划分方法, pitch
    • 映射函数不同:
      • Bark谱将线性频谱映射到Bark域上,以符合人耳听觉机理。在Bark域上分布是非线性的。Bark谱通常基于MDCT弄的,常用于编解码领域。
      • Mel谱将线性频谱映射到Mel频率域(对数log)上,以模拟人类听觉系统机理。在Mel频域上,分布是线性的。Mel谱通常基于STFT弄的,使用更广泛。
    • 两者的区别在于映射函数不同,Bark谱的映射函数是非线性的,而Mel谱的映射函数是线性的。

深入了解


巴克谱/bark刻度具体如何解释?

  • bark刻度指的是频点分带策略按人耳听觉感知特性,对0-15500Hz频点从听感上进行等间距划分24个带,低于500Hz的bark刻度近似线性,高于500Hz的bark刻度近似对数尺度。
  • bark谱划分最高到15.5kHz,若到20kHz需增加为25个带(15.5-20k)
  • bark谱的关键在于临界带的宽度,而非具体位置

相关参考


  1. 语音特征小结 - 知乎 (zhihu.com)],link
  2. 音频处理中的尺度–Bark尺度与Mel尺度_bark(巴克)频率尺度-CSDN博客,link
  3. Bark谱维基百科,link

你可能感兴趣的:(语音处理,音视频)