首页 百科知识 语音编码器的计算

语音编码器的计算

时间:2022-10-05 百科知识 版权反馈
【摘要】:下面简单介绍一下客观测试的计算,比如信噪比和频谱间距,再讨论一下非正式主观测试,这些测试都没有经过严格的约定,所以很容易被错误的解释,但对于有经验的语音编码研究人员来说,还是很有用的。,N}中计算出:听觉测试是对比两个语音编码器的最有效的方式之一,这样的测试相对来说比较容易进行,但是只有两个相互参照的结果。可是,这种对比试听的测试现在仍然广泛地使用着。

下面简单介绍一下客观测试的计算,比如信噪比和频谱间距,再讨论一下非正式主观测试,这些测试都没有经过严格的约定,所以很容易被错误的解释,但对于有经验的语音编码研究人员来说,还是很有用的。

1. 客观测量

波形编码器性能的一种最容易的计算方式就是信噪比(SNR),它可以用下式表示:

其中s(n)是输入语音,是输出语音,〈·〉表示整个发音的时间平均,片断SNR经常用来代表语音输入的主观性能。可以对许多不相互重叠的数据块采用式(5.2)来计算SNR,然后对这些数据块取算术平均值,因此,Jayant和Noll(1984年)令SNRBj代表第j个数据块的SNR,对于K个数据块

SNR和SNRSEG可以排列出编码器的性能,但是,这些差异在感观上的区别有多大,仍然不清楚。而且,用SNR和SNRSEG来比较PCM和DPCM会得到完全错误的结论。

Itakura(1975年)引入了一种频谱间距测量,可以从LPC的系数计算得到:

其中行向量A和B是扩展的预测器系数向量。A=[1-a1-a2-…-a N],B=[1-b1-b2-…-b N],系数ak可以从语音编码器的输入语音中计算出来,系数bk可以从语音编码器的输出语音中计算出来,V是语音编码器输出的自相关矩阵,d≥0,并且,按照Sambur和Jayant(1976年)的论断,d≤0.3意味着输入语音的频谱与语音编码器输出的语音差别很大。

另一种频谱间距测量可以采用下式

其中Cs(j)和Cs(j),j=1,2,…,N分别为输入语音和编码器输出语音的倒对数频谱系数(cepstral coefficient),倒对数频谱系数是能量谱对数的反傅里叶变换,但我们仍可以从LPC系数{ai,i=1,…,N}中计算出:

其中,j≥1,一个大约为0.5dB的CD值相当于8位μ律PCM的性能,CD值越大,性能越差。

2. 主观测试

听觉测试是对比两个语音编码器的最有效的方式之一,这样的测试相对来说比较容易进行,但是只有两个相互参照的结果。我们不能指出这两种编码器性能有多相近,但是如果两种编码失真的类型不一样,对于听众来说,要说出哪一种更好就困难了。当一种编码器与 8位μ律PCM相比较时,如果编码器在性能上不是相等的话,就很难确切地说出它们在性能上究竟有多相近。另外,当一个δ调制器与一个子带编码器比较时,δ调制器可能存在“嘶嘶”的噪声,而子带编码器可能有回响声,这时,试听者作出的优劣判断就会根据哪种失真是他所讨厌的,完全由试听者个人的好恶来确定,这就不是一个可靠的性能指标。可是,这种对比试听的测试现在仍然广泛地使用着。

对于一些专门设备,如蜂窝通信或声音邮件,让用户在尽可能接近自然环境的条件下,真正地实验这种编码器,会更有利一些。这种方法的优点是不需采用短的、有记录的、没有代表性的语音片断来进行评价合成语音。换句话说,用户会更加关心系统是否能达到预定目标,而不是去听输出语音的“问题”出在哪儿,这意味着要有一个完全真实的系统,比较难实现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈