一、实验原理
mpeg的音频编码主要采用了心理声学模型
临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度。
掩蔽效应在一定频率范围内不随带宽增大而改变,直至超过某个频率值。通常认为从20Hz到16kHz有25个临界频带,单位为bark。
1 Bark = 一个临界频带的宽度
对各个子带每12个样点进行一次比例因子计算。先定出12个样点中绝对值的最大值。查比例因子表中比这个最大值的最小值作为比例因子。用6 比特表示。
第2 层的一帧对应36个子带样值,是第1层的三倍,原则上要传三个比例因子。为了降低比例因子的传输码率,采用了利用人耳时域掩蔽特性的编码策略。
每帧中每个子带的三个比例因子被一起考虑,划分成特定的几种模式。根据这些模式,1 个、2 个或3 个比例因子和比例因子选择信息(每子带2 比特)一起被传送。如果一个比例因子和下一个只有很小的差别,就只传送大的一个,这种情况对于稳态信号经常出现。
使用这一算法后,和第1层相比,第2层传输的比例因子平均减少了2 个,即传输码率由22.5Kb/s 降低到了7.5Kb/s。
MPEG-I 心理声学模型
MPEG-I 标准定义了两个模型
心理声学模型1: 计算复杂度低 、但对假设用户听不到的部分压缩太严重
心理声学模型2 :提供了适合Layer III编码的更多特征 、 实际实现的模型复杂度取决所需要的压缩 因子、如大的压缩因子不重要,则可以完全不用心理 声学模型。此时位分配算法不使用SMR ( Signal Mask Ratio ),而是使用SNR
心理声学模型I
1、将样本变换到频域、 32个等分的子带信号并不能精确地反映人耳的听觉特性。 引入FFT补偿频率分辨率不足的问题。采用Hann加权和DFT Hann加权减少频域中的边界效应此变换不同于多相滤波器组,因为模型需要更精细 的频率分辨率,而且计算掩蔽阈值也需要每个频率 的幅值模型1:采用512 (Layer I) 或1024 (Layers II and III)样本窗口 Layer I:每帧384个样本点,512个样本点足够覆盖 Layer II 和Layer III:每帧1152个样本点,每帧两次 计算,模型1选择两个信号掩蔽比(SMR)中较小的 一个
2、确定声压级别
3、考虑安静时阈值 也即绝对阈值。在标准中有根据输入PCM信号的采 样率编制的“频率、临界频带率和绝对阈值”表。 此表为多位科学家经多次心理声学实验所得。
4、将音频信号分解成“乐音(tones)” 和“非乐音/噪声” 部分:因为两种信号的掩蔽能力不同
5、音调和非音调掩蔽成分的消除 利用标准中给出的绝对阈值消除被掩蔽成分; 考虑在每个临界频带内,小于0.5Bark的距离 中只保留最高功率的成分
6、单个掩蔽阈值的计算 音调成分和非音调成分单个掩蔽阈值根据标 准中给出的算法求得。
二、代码分析
在主程序中修改:输出音频的采样率和目标码率 ;选择某个数据帧,输出该帧所分配的比特数 、 该帧的比例因子、 该帧的比特分配结果
adb = available_bits (&header, &glopts);
if (frameNum == 20)
{
printf("每帧分配比特数 = %d\n", adb);
}
lg_frame = adb / 8;
sample_encoding (*subband, bit_alloc, &frame, &bs);
if (frameNum == 20)
{
printf("sample rate=%.1f kHz\n", s_freq[header.version][header.sampling_frequency]);
printf("target rate=%d\n",bitrate[header.version][header.bitrate_index]);
int a, b;
for (a = 0; a<2; a++)
{
for (b = 0; b
三 、实验结果
采样率和目标码率
分配的比特数、比例因子
每个子带的3个比例因子相距很近,可以通过选择比例因子,来实现数据压缩。
另外,低频子带分配的比特数多,高频子带分配飞比特数少。