声纹识别原理

时间：2023-02-09 理论教育版权反馈

【摘要】：考虑特征的可量化性、训练样本的数量和声纹识别系统性能的评价问题。而声纹识别技术就可以很好的解决上面的两个问题。声纹识别技术应用到PC以及手持式设备上面，可以无须记忆密码，保护个人信息安全，大大提高系统的安全性，方便用户使用。

5.6.3　声纹识别原理

1.声纹特征提取

声纹特征提取即提取声音信号中表征人的基本特征，该特征能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。考虑特征的可量化性、训练样本的数量和声纹识别系统性能的评价问题。目前主要对较低层次的声学特征进行识别。说话人特征大体归为以下几类:

(1)基音轮廓、共振峰频率带宽及其轨迹。

基于发声器官生理结构提取的特征参数。

(2)谱包络参数。

声音通过滤波器组输出，并以合适的速率对输出抽样作为声纹识别特征。

(3)听觉特性参数。

模拟人耳对声音频率感知特性而提出的，如美倒谱系数、感知线性预测等。

(4)线性预测系数。

线性预测与声道参数模型相符合，由它导出的各种参数，如反射系数、自相关系数、线性预测系数等作为识别特征，效果较好。

2.声纹模式匹配

(1)矢量量化。

通过把每个人的特定文本编成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。其识别精度较高，判断速度较快。

(2)概率统计。

考虑到短时间声音信息相对平稳，通过对稳态特征如基音、声门增益、低对反射系数的统计分析，利用均值、方差等统计量和概率密度函数进行判决。其优点是不用对特征参量在时域上进行规整，适合文本无关的说话人识别。

(3)动态时间规整。

说话人声音信息既有稳定的因素如发声习惯、发声器官结构，又有时变的因素如请速、语调、重音、韵律等。将识别模板与参考模板进行时间对比，并按照某种距离测定得出两模板间的相似程度。

(4)人工神经网络。

这种分布式并行处理结构的网络模型在某种程度上模拟生物感知特性，具有自组织和自学习能力、很强的复杂分类边界区分能力，及对不完全信息的鲁棒性，其性能近似理想的分类器。缺点是训练时间长、动态时间规整能力弱，并且网络规模可能随说话人数目增加到难以训练的程度。

(5)隐马尔可夫模型。

这种基于转移概率和传输概率的随机模型，最早被美国的IBM公司用于声音识别。它把声音看成由可观察到的符号序列组成的随机过程，该序列是发声系统状态序列的输出。识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。具体应用时，计算未知声音在状态转移过程中最大概率，根据最大概率对应的模型进行判决。它不需时间规整，可节约判决的计算时间和存储量。这是目前广泛采用的一种技术，其缺点是训练时的计算量较大。

3.应用领域

具体地说，声纹识别技术可以应用到以下领域:

(1)在信息查询领域的应用。

在传统的呼叫中心系统中，为了向用户提供个性化服务，并提高坐席的工作效率，在坐席的电脑端采用了“Screen Pop”技术。电话拨打进入呼叫中心后，系统通过识别拨打者的电话号码来进行用户识别，并从数据库里调出该用户的个人及历史交易信息，从而能够提高人工坐席的工作效率并向用户提供更具有针对性的信息服务。但通过电话号码来进行用户身份识别的缺陷是显而易见的，一方面同一个电话的呼入者未必是同一个人，另一方面某个信息查询用户可能会用不同的电话呼入。而声纹识别技术就可以很好的解决上面的两个问题。基于每个人的声音特征都是唯一而且几乎很少会发生变化的特性，可以很好通过声纹识别技术进行用户身份识别，从而提高呼叫中心的工作有效性，尤其在更加需要人性化服务的医疗、教育、投资、票务、旅游等应用方面，声纹识别显得尤其重要。

(2)在电话交易方面的应用。

在通过电话进行交易的系统中，如电话银行系统、商品电话交易系统、证券交易电话委托系统，交易系统的安全性是最重要的，也是系统设计者所要重点考虑的内容。传统的电话交易系统采用“用户名+密码”的控制机制，以确认用户的身份并确保交易的安全性。然而这种控制机制有几个明显的缺点:

①为了降低用户名以及密码被猜中的可能性，用户名和密码往往很长而难以记忆或者容易遗忘；

②密码有可能被猜到，而且现有的电话系统中，如果没有专用的端加密设备，通过DTMF信号输入身份密码，很容易就可能被别人窃取；

③拨打者往往需要拨打很多数字才能完成身份验证并最终进入系统，给用户带来很大的麻烦；若在电话交易系统内采用声纹识别技术来进行交易者身份识别与确认，上面的问题就可以迎刃而解，用户的声纹是唯一的，可以通过简单地说几句交易系统指定的话进行身份确认，其好处是显而易见的:

提高了交易的安全性，大大降低了用户名和密码被猜中或者窃取的可能性；对交易系统的用户来说，交易过程更加简单和人性化；若与电话自动语音识别技术相结合，通过语音下达交易指令，则更能提高交易的快捷性，缩短拨打用户的拨打时间，降低电话交易难度。

准确的用户身份识别，可以通过用户信息数据库和历史交易数据库，为提供真正的One-to-One个性服务打下基础；降低交易系统费用；降低坐席的干涉时间，提高效率；由于缩短了拨打用户的拨打时间，从而会减少IVR硬件系统的通道需求数量。

降低欺诈的可能性。商家可以根据有关的声纹识别技术，判断这些信息的可信度如何，并据此决定是否送货等，并可从数据库内查看拨打者的信用状况，由此可以大大地提高电话订购商品的效率，推动“电话商务”的发展。

(3)在PC以及手持式设备上面的应用。

在PC机及手持式设备上，也需要进行用户身份的识别，从而允许或拒绝用户登录电脑或者使用某些资源，或者进入特定用户的使用界面。同样采用传统的用户名加密码的保护机制，存在着用户名和密码泄露、被窃取、容易遗忘等问题。

声纹识别技术应用到PC以及手持式设备上面，可以无须记忆密码，保护个人信息安全，大大提高系统的安全性，方便用户使用。如在MacOS 9操作系统中就增加了Voiceprint password的功能。用户不需要通过键盘输入用户名和密码，只需要对着电脑说一句话就可以进行登录。

(4)在保安系统以及证件防伪中的应用。

声纹识别系统可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，在卡上事先存储了持卡者的声音特征码。在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。

同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

(5)与二维条码技术相结合的防伪应用。

二维条码是一种高密度、高信息含量的便携式数据文件，二维条码及其系统的开发应用范围极广，在国外已广泛应用在国防、公安、交通运输、医疗保健、工业、商业、金融、海关及政府管理等领域。其典型优点如下:

可容纳约1 000个汉字信息，比普通条码信息容量高几十倍。可将照片、指纹、掌纹、声音、签字、文字等凡可数字化的信息进行编码，纠错能力强，破损面积不超过50%，可照常恢复全部信息，误码率不超过千万分之一，可靠性极高，容易制作且成本低廉。利用现有的点阵、激光、喷墨、热敏/热转印、制卡机等打印技术，即可在纸张、PVC、甚至金属表面上印出PDF417二维条码采用声纹识别的方法对重要的证件、文件、单据进行防伪，在其上需要一载体记载声纹信息，若采用芯片的方式，则芯片和证件文件的紧密结合不易实现，并且芯片造价过高。从可行性上考虑，证件文件的声纹防伪需要选择一种可以和证件、文件紧密结合的声纹记载方法。综合考虑，二维条码不失为一种理想办法。

它的高信息容量可以容纳下特定人的声纹信息，而且可以很好地与证件文件等纸质结合。在需要进行证件确认的时候，通过二维条码识别出用户的声纹特征并输入到声纹确认仪器中，同时与持证人的声音进行对比，从而完成证件和身份确认。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈