首页 百科知识 语音增强算法的基础

语音增强算法的基础

时间:2022-02-16 百科知识 版权反馈
【摘要】:谱减法有幅度谱相减、功率谱相减以及各种改进、修正的方法。这种处理方法以运算量较小、容易在DSP上实现而成为目前数字助听器中最常见的方法之一。它的设计方法是建立在最小均方误差准则基础上的,最小均方误差准则是为了使滤波效果最优化,在滤波器设计过程中预设定数学计算目标的一种。
降噪方法_助听器

5.7.3 降噪方法

基于对语音和噪声的各种特性以及对语音产生的逐步理解,几十年来,逐步出现了各种语音增强的方法。这种语音增强的方法可以理解为一种数学运算的结果。如果纯净的语音信号是我们的运算目标,通过对目前获得的带噪语音信号进行各种数学方法上的运算,使最后的运算结果最大限度地接近原有信号中纯净语音的方法,即称为语音增强。整个语音增强的过程包括对带噪语音信号的预处理、噪声估计、增强算法等。其中在增强算法中涉及了各种滤波器,虽然计算的目的是一致的,但在过程的完成中因为计算中预先设定的数学目标不同,使用的参数不同,出现了各种带有优缺点的滤波器。

1.滤波器

滤波器是一种信号处理系统,它能提取信号中的有用成分,抑制干扰成分。之所以能提取信号中的有用成分是因为对不同频率的信号产生不同的增益,能有选择地放大或抑制某些频率的信号。比如经常听到的高通滤波、低通滤波、带通滤波等模拟滤波,也有如自适应滤波一类的数字滤波。如果希望设计的滤波器能最大限度地滤除干扰信号,就需要设计最佳的滤波参数以产生最佳的频率响应。而滤波参数往往与输入信号的特性密切关系。

2.信号预处理

麦克风在接收到信号后,第一步就是对信号进行预处理。预处理的目的是消除各种混叠、高频谐波失真,减少对语音信号质量的影响,同时对高频的信号进行放大。由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,频率越高相应的强度越小,因此要在预处理中提升高频部分,使从低频到高频的整个频带中信号的频谱变得平坦,以便于频谱分析或声道参数分析。预处理还包括将连续的语音信号分割成一段一段的短时语音信号段(一般认为在10~30ms的短时间内,语音信号特性基本保持不变),借助平稳随机信号处理的理论来提取语音特征参数,以备进一步作降噪处理。

在语音增强算法中,确定语音信号的有无和准确定位语音信号的起止位置是预处理中非常重要的部分。与语音增强算法一样,语音有无的判断方法也具有多样性:有的使用基于短时能量和短时平均幅度的端点检测;有的使用基于能量比方法的端点检测,该方法采用带噪语音处理前后能量比来估计语音段和寂静段;有的根据语音信号的幅度相对于背景噪声其幅度的动态范围大小来判断语音信号的有无;有基于频带方差的检测法,其根据语音和噪声在频带上的不同分布来进行判断,语音各频带的起伏,短时能量大,噪声反之;比较常用的是短时过零率,表示一段连续语音信号在时域波形中通过时间轴的次数,浊音富含低频,过零率低,清音则相反。不同语音有无的判断方法的基本思想都是从输入信号中提取一些度量特征值,再与相应的阈值进行比较并判断。关键问题是选择哪些度量特征值,如何定义确定阈值,这些会影响语音检测活动的好坏。除了单通道信号的语音有无的判断外,多通道的语音检测在原有算法的基础应用了空间能量参数。

3.噪声估计

在语音增强中,对噪声进行准确的估计是后续算法得以顺利进行的前提条件。噪声估计中有使用语音有声和无声检测方法的,即在无声时更新噪声估计,有声时把估计的噪声应用到目前的有声信号;也有不使用有声和无声检测方法的,是指无论是有声还是无声都对噪声估计进行更新。

4.算法分类及常见增强算法

(1)算法分类

语音增强算法的分类方法各异。如从计算方法是从时域还是频域来分类:有基于时域分析的,如参数或模型法;有基于频域分析的,如谱减法、短时谱估计、对数谱估计等;有基于时域频域分析的,如小波分析等。

如按照实现估计(对信号的估计和对输出结果的估计)的方法不同分类,可以分谱减法、维纳滤波、最小均方误差估计法等。

如按是否使用参数,可以分为参数和非参数法。参数法是先建立语音或噪声和语音产生的模型。简单的如使用信号的周期性参数作为模型,复杂的以信号的统计分析作为模型。非参数法不需要估计语音、噪声的特性,谱减法、自适应滤波技术均属于此法。

(2)常见语音增强算法

各类语音增强方法中最常见的算法是基于语音短时谱估计的增强算法。除了谱减法外,还有维纳滤波、最小均方误差法等,以及新出现的在助听器中使用较多的自适应滤波技术。

1)谱减法

谱减法是利用语音短时稳定,字与字或词与词之间存在间歇的特性,对噪声和语音特性做出良好的估计,把在间歇和停顿期提取到的无语音的信号特征进行统计并作为样本对含噪的语音进行处理,这是一种相减的方法。谱减法有幅度谱相减、功率谱相减以及各种改进、修正的方法。一般的谱减法中都不包含特殊运算的理论。该方法分析的基础是基于人耳对语音的感知是通过语音信号中各频谱分量幅度,但对各分量的相位不敏感获得的,即从带噪语音的短时谱幅度信息中减去噪声的平均谱幅度信息来得到增强语音的谱幅度信息。这种处理方法以运算量较小、容易在DSP上实现而成为目前数字助听器中最常见的方法之一。但这种谱减法是一种最大的似然估计,它放弃了对语音频谱的分析假设。其最大的缺点是频谱相减会产生一种具有一定节奏感的残余噪声,一般称为“音乐噪声”。其产生的原因是把用前几个样本语音寂静段获得的噪声数据应用于当前的非平稳的噪声,出现降噪过多或过少的现象就无可避免了。最近几年对谱减法的改进主要致力于对噪声谱的估计,只有对噪声的估计越接近真实数据,才能越有效地减低“音乐噪声”。虽然有这个缺点,但在实际使用中因算法简单有效而被广泛应用。经典谱减法的过程是先读入带噪语音数据,把语音数据按时间分段,取前几段的数据来估计噪声功率谱平均值;同时对每一段带噪语音估计功率谱,最后进行相减运算。

2)维纳滤波法

维纳滤波法是假设在语音、噪声为平稳信号的基础上产生的。带噪语音信号是在通过该滤波器后其中的噪声幅度谱被减去,再加上带噪语音频谱的相位后获得目标信号的一种计算方法,可以把其理解为谱减法的衍生算法。它的设计方法是建立在最小均方误差准则基础上的,最小均方误差准则是为了使滤波效果最优化,在滤波器设计过程中预设定数学计算目标的一种。它是指将估计值(对语音信号的估计值)与需要值(通过滤波器的输出值)差平方的统计平均值作为性能函数的一种计算方法。它是根据全部过去观测值来估计信号的当前值。它的优点是语音增强后的残留噪声类似于白噪声,缺点是比较适合于平稳随机信号,而语音信号只在短时间内近似平稳,噪声很多情况下是非平稳的。其经典的运算过程是在完成谱减法步骤的基础上,再根据最小均方误差准则求出传递函数,所需的语音信号等于带噪语音的频谱乘以传递函数求得。

3)最小均方误差法

最小均方误差法是在维纳滤波法的基础上发展而来的,它不像维纳滤波法是由过去所有的观测值来估计当前值。最小均方误差法考察系统的每一个瞬时值,并以瞬时平方误差性能函数代替维纳滤波的均方误差性能函数,得出的结果为一个瞬时递推式,即用N-1时的值来估计N时的值。该算法的优点是对非平稳的环境噪声有较好的衰减作用,也能减少处理过程中出现的残留噪声。缺点是由于需要统计各种参数,算法运算量大,实时性不好。

此外,除了考虑语音信号和噪声信号的性质外,有些计算方法还加入了人耳对声音分析的特性,比如模拟人耳的24个频率群;模拟人耳的掩蔽效应,该掩蔽效应是指人耳不能在信号谱能量高的地方觉察出噪声的存在,是信号掩蔽噪声的情况,这与基础听力学上噪声掩蔽信号的掩蔽效应有所不同。也就是说,残留噪声强度能被语音信号掩蔽而不被人觉察就可以了,没有必要把噪声全部消除,这种处理可以减少语音信号在减噪过程中有用信号的丢失。

4)自适应滤波法

新的算法中,自适应滤波技术是在助听器中最常使用的语音增强技术之一。传统的数字滤波器的权系数是固定的,权系数在设计时根据各种可获得的语音、噪声信号参数来计算目标输出,该参数可能是来自对信号直接的估计,也可能是来自语音模型的参数。设计出的系数在使用过程中对各种信号处理时保持不变。然而在实际使用过程中,在有限的信息(相对应千变万化的信号)基础上设计出最优的权系数并非易事,这也是出现各种滤波技术及各自的改进、修正版本的原因。自适应滤波器在输入信号特性未知或者输入信号特性变化时,能够调整自己的参数,以满足某种最佳滤波准则的要求。除了普通滤波器的硬件设备外,还有软件部分,即自适应算法。它可以按照某种事先设定的准则、算法自动调节本身的传递函数以达到所需要的输出。换句话说,它的最大特点是其工作时的滤波参数来自前一时刻输入信号的统计特征,根据事先设定的准则、算法使输出的信号能符合设计的目标。自适应算法的好坏直接影响滤波效果。按照设计最佳滤波准则不同,自适应滤波器的计算方法也相应不同。一般把自适应滤波器分为线性自适应滤波器和非线性自适应滤波器。虽然非线性自适应滤波器具有更强的信号处理能力,但由于其计算复杂度高,在目前的应用中受到限制。线性自适应滤波器的算法复杂性低,尽管对信号的处理能力有限,但目前仍然广泛地被应用。线性自适应滤波器中常见的事先约定的计算滤波的准则有最小均方误差准则(该准则认为滤波器的输出与需要信号之间的均方值差最小为最佳,这个准则与维纳滤波的准则相同,但一般的维纳滤波只能处理信号统计特性先验已知的情况,如维纳滤波器的权系数能作出改变就成为自适应维纳滤波器)、递归最小二乘算法、基于子带分解的自适应滤波算法等。其中因计算简单而使用最广泛的是最小均方误差准则和最小均方算法,后者是在前者基础上的改进。

自适应滤波法可以用于单通道信号处理,也可以用于多通道信号处理。其中自适应噪声对消技术是自适应滤波法的典型应用。后面的自适应波束形成中也有自适应滤波的计算,只是在波束形成中还涵盖了空域的参数。

5.自适应噪声对消技术

在自适应噪声对消技术中,信号的处理过程中有两个输入端:主通道输入端和参考通道输入端。主通道的信号为带噪语音信号,参考通道的作用是估计出噪声,通过调整该通道中的滤波系数使参考通道中估计的噪声最接近主通道中的噪声。这种方法降噪明显,被广泛应用于语音增强技术中,关键在于获得噪声源的复制。自适应噪声对消技术的示意图,其中d(n)是信号加噪声,s(n)是信号,y(n)是自适应滤波器对x(n)噪声的估计值。信号s(n)=d(n)-x(n),通过滤波器的工作s(n)=d(n)-y(n)。

6.单通道降噪与多通道降噪

(1)单通道降噪

单通道降噪是指信号的输入为单通道,多通道降噪是指信号的输入为多通道。助听器技术中单麦克风的属于单通道降噪,双麦克风或者多麦克风的属于多通道降噪。这里所讲的单、多通道不是压缩特性中的通道数。单通道降噪中语音与噪声同时存在于一个通道中,对噪声的获得没有参照数据,比较适用于噪声平稳的情况。

(2)多通道降噪

多麦克风陈列的语音增强除了它自有发展的有关算法外,同时也吸收了单麦克风语音增强的方法,如常用的语音参数模型法、谱减法和维纳滤波法都有应用到多麦克风阵列的语音增强中。两者结合更能有效地提高降噪的作用。多通道降噪中,各通道中获得的信号与噪声的数据可以相互参照,同时由多麦克风获得信息的降噪技术使得探究噪声与信号空间上的分离成为可能,即除了时域、频域的信息外,同时也可获得空间上信息的差异。助听器的多麦克风技术是助听器对来自多麦克风通道多信号源的信号通过空间滤波器来完成降噪。与单麦克风的降噪技术相比,多麦克风降噪可以增加信噪比,可以实现声源的自动定位与跟踪。人们已经提出了许多基于麦克风阵列的语音增强方法,大体可分为波束形成法和信号子空间法。其中比较经典的方法是波束形成法,包括固定波束形成、自适应波束形成和后置滤波法。在多通道语音增强中,常见的名词有麦克风阵列、波束成型、固定波束形成方法、自适应波束形成方法、具有后置滤波的波束形成法。先介绍各名词,再介绍多通道降噪中噪声场问题、语言检测问题与时延问题。

1)各名词及经典计算方法

①麦克风阵列,即一组以某种形式作空间排列的传感器单元连接到一个或多个接收信道。利用多个麦克风拾取信号来实现语音信号处理。

②波束成型,即空间滤波。其实质是计算求和加权系数,对各阵元接收信号进行加权求和。可以通过调制权系数,对不同方向来的信号使用不同增益。

③固定波束形成方法,也称延迟求和波束形成法。其滤波权值是固定不变的。原理是对期望语音信号在各麦克风上的相对时延进行补偿对齐再求和,即实现同相位相加,从而增强语音。而且结构简单,计算量小。它的效果与麦克风个数、麦克风间距、噪声入射方向等有很大关系。尤其在低信噪比的情况下,语音被噪声淹没,降噪的效果就不明显。对在非相干噪声或散射噪声情况下的作用优于相干噪声的情况。

④自适应波束形成方法。基于不同算法准则和不同的滤波器,自适应波束形成的方法也有多种,常见的有Frost宽带波束形成、自适应抵消法、广义旁瓣抵消法。Frost宽带波束形成自适应计算方法,可以用较少的麦克风取得较好的降噪效果。广义旁瓣抵消法是对Frost宽带波束形成法的修正,并成为后来许多算法的理论框架,是自适应波束形成器的一种通用模型。其包括固定波束形成器、阻塞矩阵和无约束的自适应噪声抵消器。阵列信号一路通过固定波束形成得到增强后的信号,同时该阵列信号通过一个阻塞矩阵尽量使这一路的信号阻塞语音,希望只包含噪声,完成后的信号再通过自适应滤波器,在自适应滤波器中完成对噪声的估计。最后把估计的噪声应用到另外一路的信号以减去噪声。这种计算方法当干扰噪声源数目少于麦克风数目时能达到较好的效果,但其主要的问题是这种计算方法存在无法完全阻塞语音的问题,对于非相干噪声,降噪能力反而不如传统的波束形成方法,由此也相应出现了许多修正的版本。

⑤具有后置滤波的波束形成法,是指在自适应波束形成的基础上再加用自适应维纳滤波来增强降噪效果。该方法还增强了对回响的效果。

除上述几种经典方法外,还有基于子带自适应波束形成的麦克风阵列语音增强(不同于一般的延迟求和波束形成计算只进行一次,这种计算把宽频的声音分成子频带,进行多个延迟求和波束形成计算),基于盲波束形成的麦克风阵列语音增强(是以盲源分析作为输入的基础)等等。也有学者把几种经典的方法结合使用,比如把能抑制频率成分不同的干扰信号和噪声的谱减法与具有空时滤波优势的波束成型结合使用增强效果等。无论用何种方法,都是以提高计算量为代价来换取性能的改善,很多理论在目前都难以实现,特别是在助听器中。

2)多通道降噪中噪声场问题

麦克风阵列所处的噪声场分为相干噪声场、非相干噪声场和散射场。当只有一个噪声源存在,麦克风接收的噪声只有相位和幅度上的差异时,这种情况称为相干噪声场。当麦克风接收到的噪声彼此不相干,称为非相干噪声场。在实际环境中,最常见的是散射噪声场,同时有上述两种情况。在散射场中,平面波在所有方向上随即传播,噪声是无限多个平面波的叠加,通过计算可以知道,噪声在低频段强相关,在高频段弱相关。对于自适应波束形成,其降噪能力与麦克风所处的噪声场的空间相干性密切相关。

3)多通道降噪中的语音检测问题

麦克风阵列中的语音检测一方面使后续的时延估计可以只在语音段进行,提高了估计的准确性;另一方面,检测结果也可以被其后的自适应滤波所用,使滤波器能及时更新系数,提高对噪声的判断。

4)多通道降噪中的时延问题

由于麦克风阵列对语音信号的空间采样,使得声音到达不同位置的麦克风有时间上的差异。对参考麦克风而言,其他麦克风的到达上的差异称为时延。为使波束形成器的输出达到最大的信噪比,保持各麦克风接收到的期望语音信号同步是很重要的问题。这是进行后续处理的一个前提条件,也是多数麦克风阵列语音增强算法中的一个基本问题。设计上对延迟的数据的获得,很大程度上影响到降噪的效果。由于实际环境中存在混响和噪声干扰问题,有时噪声是相干的,有时是不相干的,也会有散射场的情况,这都对时延估计的准确性和稳定性提出了很大的挑战。

由于时延估计的困难,信号子空间的计算方法正是为了避开这个难题而设计的,可以把信号自空间法看做是单通道谱减法在麦克风阵列中的应用。

尽管麦克风阵列的语音增强有诸多的优点,但是从理论上讲语音信号是宽带信号,而阵列多用窄带信号。噪声源可能与语音信号的频谱有相同特性,这将致使波束形成失去作用。混响会影响阵列中的时延估计和语音检测活动,较大的混响还会影响自适应阻塞矩阵的判断,不能有效地阻塞语音信号,造成输出中的语音信号被当作噪声衰减。实际环境中说话者提供的语音并不是在空间上固定不变的点声源,与多数设计的计算方法中的模型不同。

纵观上述各法,无论用何种方法,最终的目标是要最大限度地去除噪声,最低程度地影响语音,尤其是对清音的影响,同时要减少因各种计算方法引起的残留的噪音。事实上,助听器使用者所处的环境千变万化,自然界的噪声也各有各的特性。而且目前多数的单通道处理过程都是对信号中的前一段信号作出统计分析,再将结果应用于后一段信号中,也就是在对目前的信号进行处理的过程中,使用的对照参数是来自前一个样本的。处理结果的优劣很大程度上依赖于假设参数、模型、统计数据的精确性,而且仅单独地使用一种方法而想去除各种噪声是不现实的。但同时也应看到,随着信息论、子带滤波等理论的发展,出现了盲源分离、子带分解、多分辨率分析等新的语音增强方法。语音增强的发展基本上是从语音分析工具和具体计算方法这两大方面来展开的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈