如前所述,声波是随时间变化的物理量,可以通过能量转换装置,使用随声波变化而改变的电压或电流信号来模拟声波的变化过程。然而,模拟电压难以保存和处理,并且计算机无法直接处理这些模拟量。因此,首先要把模拟声音信号通过模数(A/D)转换电路转换成数字信号(图3-8),然后由计算机对数字信号进行处理;处理后的数据再由数模(D/A)转换电路还原成模拟信号,通过扬声器或其他设备输出,这就是音频数字化及处理的过程。
图3-8 音频模拟信号数字化流程
1.采样
如图3-9所示,每隔一定时间间断性地在模拟音频的波形上采集幅度值的过程称为采样。其中,每次采样所获得的数据与该时间点的声波信号相对应,称为采样样本。将这一连串的样本连接起来,就可以描述一段声波了。
图3-9 音频信号的采样
(a)连续的模拟声音信号; (b)声音信号的采样; (c)离散的音频信号
奈奎斯特采样定理明确指出:当对连续变化的模拟信号进行采样时,只要采样频率f高于被采样信号最高频率的两倍,那么就可以通过插补技术正确地恢复原始的模拟信号,否则就会引起频谱混叠,而混叠的部分是不能够通过插补技术正确恢复的。根据奈奎斯特采样定理,就可以确定常用的音频信号采样频率标准。例如,假设音频信号的频率最高为20 k Hz,则采样频率fs应该大于40 k Hz,但由于LPF在20 k Hz处大约有10%的衰减,为了全频带高质量地还原,可以选择22 k Hz的2倍作为音频信号的采样频率。同时,由于我国电视所使用的PAL制式场频为50 Hz,而NTSC制式的电视场频为60 Hz,为了使音频信号能与电视信号同步,选择两者的整数倍,即44.1 k Hz作为音频信号的采样频率,这就是CD-DA音频信号的采样标准。对于电话音质来说,话音的信号频率约为3.4 k Hz,采样频率为最高频率的2倍再取整,即选择8 k Hz为电话音质的采样标准。常见的采样标准与其对应的音质见表3-3。
表3-3 常见的采样标准与音质
2.量化
经过采样得到的样本是模拟音频的离散点,但在幅值上仍然是连续的,即每一个采样值都可能取最大幅值范围内的所有值。为了将采样得到的离散序列传入计算机并进行后续处理,必须首先将这些采样后的数据在幅值上进行离散化,再将其转换为计算机也能识别的二进制数字,这一过程称为量化编码。
量化是指将整个幅度划分为有限个小幅度(量化阶距)的集合,再把落入某个阶距内的采样值归为一类,并赋予相同的量化值。满幅度的模拟数据平均分得的份数称为该模拟数据的量化级数,而表示该级数所采用的二进制的位数称为量化位数。
当量化位数为n时,量化级数则为2n。显然,量化位数越大,量化级数就越多,所能记录声音的变化程度就越细腻,量化后的样值就越接近原始值,但位数的增多会使得量化后的数据量增大,这对声音数据的存储、传输和处理是不利的,因此,在量化位数的选择上应该综合考虑信号质量和数据量的大小。因为计算机是按字节来组织存储器的,因此一般选择8位、16位或32位进行量化。
当量化位数确定后,每一个采样样值都要按照一定的方法对应到相应的量化级数上,这时所采用的方法就是取整,一般是按照四舍五入的方法将每一个样值归到某一个与其最接近的量化级上。量化级的最小单位称为量化级差,它是二进制最低有效位所代表的物理量。在量化过程中,由于四舍五入所导致的量化后的输出值与输入样值的差称为量化误差,或称作量化噪声。
(1)均匀量化
均匀量化采用相等的量化间隔来度量采样得到的幅度。该方法对于输入信号,不论大小一律采用相同的量化间隔,因此获得的音频具有品质较高的优点,但是同时也存在音频文件容量较大的缺点。
(2)非均匀量化
非均匀量化对输入的信号采用不同的量化间隔,例如,对于小信号,则采用较小的量化间隔;对于大信号,则采用较大的量化间隔。采用该方法虽然能减小文件容量,但对于大信号的量化误差较大。
3.编码
编码即编辑数据,是指将量化后的数据用计算机二进制数的数据格式表示出来的过程,也就是设计如何保存和传输音频数据的方法。日常生活中用到的MP3、WAV等音频文件格式,就是采用不同的编码方法得到的不同数字音频文件。
声音的三大要素(响度、音调和音色)可以由传声器转变为相应的电流三大特性(幅度、频率和波形)。表3-4给出了模拟电压的均匀量化编码实例。
表3-4 模拟电压的均匀量化编码
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。