首页 百科知识 语音识别技术

语音识别技术

时间:2022-10-24 百科知识 版权反馈
【摘要】:现有的自动语音识别技术是建立在对人的语音交互过程的坚实但又不完全的理解基础之上的。语音识别技术又称声纹识别技术,将人讲话发出的语音通信声波转换为一种能够表达通信消息的符号序列。语音识别技术可以采用两种方式。测度估计是语音识别的核心。HMM是先进的语音识别系统中采用的主流技术,它实质上是一种通过相互关联的两重随机过程共同描述语音信号短时谱随时间变化的统计特性的模型参数表示技术。连续言语识别与理解识

1.3.4 语音识别技术

1.语音识别技术原理

现有的自动语音识别技术是建立在对人的语音交互过程的坚实但又不完全的理解基础之上的。语音交互技术的研究具有高度的学科交叉性,广泛涉及信号处理、语音声学、模式识别、通信和信息理论、语言学、生理学、计算机科学、心理学等学科的原理和方法。

这些学科知识的综合可概括出构成自动语音识别技术基础的三个原理:

(1)语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码的。

(2)语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示。

(3)语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。

这三个原理是对这一领域广而又详实的知识的高度概括。例如,幅度谱的重要性被听觉的生理机能及其模仿、语音产生的声道解剖及其模仿、语音信号的谱图这三项相互独立的研究所证实,这些研究导致了声码器的诞生;语音的可阅读性是语音声学的核心内容,主要研究对言语的声学表征、语音、音位以及音位配列的结构的数学形式化,乔姆斯基和哈勒的研究构成了这方面理论的一个完备体系;言语的认知研究主要是心理学研究的范畴,其中心理物理学为语音编码,尤其是在语音、语词的句法等方面进行某些重要的表示和操作提供了大量的依据。

语音识别技术又称声纹识别技术,将人讲话发出的语音通信声波转换为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身,也可以是识别系统词汇的组成单元,常称其为语音识别系统的基元或子词基元。语音识别基元的主要任务是在不考虑说话人试图传达的信息内容的情况下,将声学信号表示为若干个具有区别性的离散符号。可以充当语音识别基元的单位可以是词句、音节、音素或更小的单位,具体选择什么样的基元,经常受识别任务的具体要求和设计者的知识背景的影响。

语音识别技术可以采用两种方式。第一种是依赖原文。系统将一句话与访问者相联系,对每个访问的人,系统会给出不同的句子提示。应对说话者不断变化的主要方法是动态的变化,这包括用一系列的声音向量来描述说话方式,然后计算访问者和允许进入者说话方式的差距。另一种是不依赖原文。访问者不必说同样的句子,因此,系统应用的惟一信息就是访问者的语音特征。

语音识别技术的优点是:系统的成本非常低廉;对使用者来说,不需要与硬件直接接触,而且说话是一件很自然的事情,所以语音识别可能是最自然的手段,使用者很容易接受;最适于通过电话来进行身份识别。

语音识别技术的缺点是:准确性较差,同一个人由于音量、语速、语气、音质的变化等原因容易造成系统的误识;语音可能被伪造,至少现在可以用录在磁带上的语音来进行欺骗;高保真的录音设备是非常昂贵的。另外,虽然每个人的语音特征均不相同,但当语音模板达到一定数量时,语音特征就不足以区分每个人,而且语音特征容易受背景噪音、被检查者身体状况的影响。

语音识别系统原理如图1-11所示。

img13

图1-11 语音识别系统原理

1)预处理

待识别的语音经过话筒变换成电信号即语音信号后,加在识别系统的输入端,首先要经过预处理,预处理包括反混叠滤波(滤除其中不重要的信息及背景噪声)、模/数转换、自动增益控制及端点检测(判定语音有效范围的开始和结束位置)等处理工作。

2)特征参数提取及分析

经过预处理后的语音信号,就要对其进行特征参数分析。语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特征的Mel频率倒谱系数(MFCC)、PARCOR系数(偏自相关系数)、随机模型(即隐马尔可夫模型)、声道形状的尺寸函数(用于求取讲话者的个性特征),以及音长、音调、声调等超音段信息函数等。特征的选择和提取是系统构建的关键,识别参数的选择也与识别率及复杂度的矛盾有关。因为在通常情况下,如果参数中包含的信息越多,则分析和提取的复杂度越大。

3)距离测度

用于语音识别的距离测度有多种,如欧氏距离及其变形的距离、似然比测度、加权了超音段信息的识别测度、隐马尔可夫模型之间的距离测度、主观感知的距离测度等,都是人们感兴趣的测度。

4)语音库

语音库即声学参数模板。它是训练与聚类的方法,从单个讲话者或多个讲话者的多次重复的语音参数经过长时间的训练而聚类得到。

5)测度估计

测度估计是语音识别的核心。目前已经研究过多种求取测试语音参数与模板之间的测度的方法,如动态时间规整法(DTW)、有限状态矢量化法(VQ)、隐马尔可夫模型法(HMM)等。此外,还可使用混合方法,如VQ/ DTW法等。

DTW是一种基于模板匹配的特定人语音识别技术,它的成功之处在于巧妙地解决了对两个程度不等的模板进行比较的问题,并在孤立词特定人语音识别中获得了良好的性能。这种方法不适合于非特定人语音识别系统。

HMM是先进的语音识别系统中采用的主流技术,它实质上是一种通过相互关联的两重随机过程共同描述语音信号短时谱随时间变化的统计特性的模型参数表示技术。其中一重随机过程是隐蔽不可观测的有限状态马尔可夫链,另一重随机过程是与马尔可夫链的每一状态相关联的可观测特征的随机输出。HMM基元模型匹配的主要原理是贝叶斯估计,对要识别的语音的观察特征序列,在系统可知的范围中,找出最有可能产生该观察序列的基元模型序列作为识别结果的假设,这个过程也叫搜索。在搜索最佳结果的过程中,语言认知的知识可以提供极大的帮助。

6)专家知识库

专家知识库用来存储各种语言学知识,如汉语变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。对于不同的语言,有不同的语言学专家知识库,对于汉语,也有其特有的专家知识库。

7)判决

对于输入信号计算而得到的测度,根据若干准则及专家知识,判决选择可能的结果中最好的结果,由识别系统输出,这一过程就是判决。

2.语音识别技术的分类

从技术方面,语音识别技术按照不同的角度有不同的分类方法。

1)从所要识别的单位来分

从这个角度对语音识别系统进行分类,可以分为孤立单词识别(isolated word recognition)、连续单词识别(connected word recognition)、连续语音识别(continuous speech recognition)和连续言语识别与理解(conversational speech recognation)。

孤立单词识别:识别的单元为字、词或短语,它们组成识别的词汇表,对它们中的每一个通过训练建立标准模板或模型。

连续单词识别:以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准、样板或模型也是字、词或短语,但识别可以是它们中间几个的连续。

连续语音识别:是指中大规模词汇但用子词作为识别基本单元的连续语音识别系统。

连续言语识别与理解识别:系统识别的内容是说话人以自然方式说出的语音。即以多数词汇为对象,待识别语音是一些完整的句子。虽不能完全准确地识别每个单词,但能够理解其意义。

2)按语音词汇表的大小分

每个语音系统必须有一个词汇表,规定识别系统所要识别的词条。词条越多,发音相同或相似的词也越多。这些词听起来容易混淆,因此误识率也随之增加。

根据系统所拥有的词汇量的大小,可分为有限词汇语音识别系统和无限词汇语音识别系统。有限词汇识别按词汇表中字、词或短句的个数的多少大致分为:100以下为小词汇,100~1 000为中词汇,1 000以上为大词汇。一般地,语音识别的识别率都随单词量的增加而下降。无限词汇识别又称为全音节识别,即识别基元为汉语普通话中对应的所有汉字的可读音节。全语音识别是实现无限词汇或中文文本输入的基础。

3)按说话人的限定范围分

根据系统对用户的依赖程度可以分为特定人语音识别(speakerdependent)和非特定人语音识别(speaker-independent)。

特定人系统可以是个人专用系统或特定群体系统,如特定性别、特定年龄、特定口音等。非特定人语音识别适应于指定的某一范畴的说话人。

4)按识别方法分

按识别方法可分为模板匹配法、概率模型法和基于神经网络的识别方法。

(1)模板匹配法

基于模板的识别方法,事先通过学习获得语音的模式,将它们做成一系列语音特征模板存储起来。在识别时,首先确定适当的距离函数,再通过诸如时间规整(DTW)等方法将测试语音与模板的参数一一进行比较与匹配,最后根据计算出的距离,选择在一定准则下的最优匹配模板。

(2)概率模型法

概率模型法是基于统计学的识别方法,在这一框架下,语音本身的变化和特征被表述成各种统计值。人们不再刻意追求细化的语音特征,而是更多地从整体平均的角度来建立最佳的语音识别系统。

(3)基于神经网络的识别方法

基于神经网络的识别方法与生物神经系统处理信息的方式相似,通过用大量处理单元连接成的网络来表达语音基本单元的特性,利用大量不同的拓扑结构来实现识别系统和表述相应的语音或语义信息。这种系统可以通过训练积累经验,从而不断改善自身的性能。

目前,关于语音识别研究的重点在大词汇量、非特定人的连续语音识别,并以隐马尔可夫模型为统一框架。

3.语音识别技术的应用领域

语音识别技术的准确性和鲁棒性是对话系统获得实际应用的主要门槛。由于语音识别是人最基本最擅长的一种功能,人对自动语音识别技术的性能评判和接受程度可能比其他任何一种技术都更加苛刻和更加挑剔。人们往往用自己的语音识别智慧来挑战机器语音识别的性能,从这个角度出发,语音识别的性能与人的语音识别性能确实存在着较大的差距。但是,如果把语音识别当作减轻人的负担的工具来对待,目前先进的对话系统已经可以进入人的现实生活中了。

可以预期,随着社会信息化的普及,语音识别技术作为人机交互最自然的界面,很快会在实际生活中的信息查询和命令控制等方面成为人的得力助手,帮助人们摆脱鼠标、键盘、屏幕等信息终端的物理约束,减轻生理心理负担,提高社会生产力。

目前,语音识别技术主要使用在如下几个领域。

1)在信息查询领域的应用

基于每个人的声音特征都是惟一而且几乎不会发生变化的特性,可以很好地通过语音识别技术进行用户身份识别,从而提高呼叫中心工作的有效性,尤其在更加需要人性化服务的医疗、教育、投资、票务、旅游等应用方面,语音识别显得尤其重要。

2)在电话交易方面的应用

在通过电话进行交易的系统中,如电话银行系统、商品电话交易系统、证券交易电话委托系统,交易系统的安全性是最重要的,也是系统设计者所要重点考虑的内容。传统的电话交易系统采用“用户名+密码”的控制机制,以确认用户的身份,并确保交易的安全性。然而这种控制机制有以下几个明显的缺点:

(1)为了降低用户名以及密码被猜中的可能性,用户名和密码往往很长而难以记忆或者容易遗忘;

(2)密码有可能被猜到,而且在现有的电话系统中,如果没有专用的端加密设备,身份密码很容易被别人窃取;

(3)拨打者往往需要拨打很多数字才能完成身份验证,并最终进入系统,给用户带来很大的麻烦。

若在电话交易系统内采用语音识别技术来进行交易者的身份识别与确认,上面的问题就可以迎刃而解。

3)在PC机以及手持式设备上的应用

在PC机及手持式设备上,也需要进行用户身份的识别,从而允许或拒绝用户登录电脑或者使用某些资源,或者进入特定用户的使用界面。同样,采用传统的用户名加密码的保护机制,存在着用户名和密码泄密、被窃取、容易遗忘等问题。

语音识别技术应用到PC机以及手持式设备上,可以无需记忆密码,起到保护个人信息安全、大大提高系统的安全性、方便用户使用的作用。如在Mac OS 9操作系统中就增加了Voiceprint password的功能,用户不需要通过键盘输入用户名和密码,只需要对着电脑说一句话就可以进行登录。

4)在保安系统以及证件防伪中的应用

语音识别系统可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,如在卡上事先存储了持卡者的声音特征码,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。

同样,可以把含有某人语音特征的芯片嵌入到证件之中,通过上述过程完成证件防伪。

5)与二维条码技术相结合的防伪应用

采用语音识别的方法对重要的证件、文件、单据进行防伪,应用时,需要在一载体上记载语音信息。若采用芯片的方式,则芯片和证件文件的紧密结合不易实现,并且芯片造价过高。从可行性上考虑,证件文件的声纹防伪需要选择一种可以和证件、文件紧密结合的声纹记载方法。综合考虑,二维条码不失为一种理想的办法。

由于二维条码的高信息容量可以容纳特定人的语音信息,而且可以很好地与证件文件等纸质结合。在需要进行证件确认时,通过语音二维条码识别出用户的声纹特征并输入到语音确认仪器中,同时与持证人的声音进行对比,从而完成证件和身份确认。语音二维条码技术也可以应用到人类生活的很多领域,如物流配送方面:在提取货物时及订货到达时,可以通过承载语音的二维条码来确认提货人或者购物者的身份,从而大大降低冒领、拒领等现象的发生,提高物流运行效率,促进电子商务和电话商务的发展。

在未来几十年中,语音技术还将存在于所有涉及人机界面的地方。特别是在电信服务、信息服务和家用电器中,以“自动呼叫中心”、“电话目录查询”、股票、气象查询和家电语音控制等为代表的语音应用将方兴未艾。而结合语音识别、机器翻译和语音合成技术的直接语音翻译技术,将通过计算机克服不同母语人种之间交流的语言障碍。语音也将成为下一代操作系统和应用程序的用户界面之一。在社会潜在的应用驱动下,语音识别理论和技术将得到飞速发展。

但是语音识别技术的发展也存在一定的挑战。在语音识别中,口语识别最具技术性挑战,也最具实用价值,是语音识别未来发展的重要趋势之一。当前,世界上有许多大学和研究所已开发和正在开发口语对话系统,如Carnegie Mellon的Communicator、MIT的Jupiter和Mercury、AT&T的How May I Help You、Achen的Philips,国内的中国科学院、清华大学、北京交通大学、沃克斯技术院等单位也开展了对话系统的研究。同时,一些公司如Nuance、TellMe、BeVocal、HeyAnita、Voxeasy,已经成功地在一系列的领域开发了以口语为界面的应用。但就整个来说,这些系统的任务相对比较简单,大体局限在信息查询方面和命令与控制方面,并且以系统主导为主,较复杂的交互目前还处于开发之中。

虽然在这方面已经取得了一定的进展,但是还未达到人类的要求,主要原因在于语音识别技术所涉及的以下几方面还没有找到完满的解决方案

环境及噪声:对话系统所处的声学环境、噪声强度、说话人离话筒的距离和位置变化等都会对语音识别产生重大的影响,这是各种语音识别系统普遍存在的问题。

特征提取:输入的语音信号经过一定的预处理,主要过程为采样、反混叠滤波、自动增益控制、去除声门激励和口唇辐射的影响以及去除噪声影响、端点检测等,进入特征提取阶段。现在主要的特征提取方法是基于Mel系数的Mel频率倒谱系数(MFCC)分析法,但仍然存在优化的强烈动因和改进的可能。

声学模型:声学模型的基本问题是以识别基元的粒度优化,各种语言的最佳分辨粒度存在较大的差异,同时,语言的最佳分辨粒度还与辨识任务的结构有关。

实时解码:对话系统的口语识别要求解码速度至少要达到心理准实时的水平。由于实时性和准确性、内存空间占用等矛盾的存在,在兼顾准确性和内存消耗的情况下做到实时解码,是面向实际应用系统必须考虑的问题。

语言模型:语言模型是对话系统重要的知识来源,由于自然口语的语料一般不易搜集,而且自然口语的语法存在语法约束较弱、停顿及插入较多等问题,语言建模在很大程度上直接影响到对话系统性能的提高。

置信度:置信度是对话系统自知之明的一种度量,在人机对话过程中有重要作用。虽然十多年来,人们已经提出了不少识别结果的置信度预测方法,但迄今为止,尚没有找到满意的通用的置信度预测方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈