基于稀疏表示的面部表情识别新算法

时间：2024-09-17 百科知识版权反馈

【摘要】：本文主要研究了稀疏表示的问题以及在人脸面部表情识别中的应用，针对现有的JAFFE表情库和AR表情库，验证了基于稀疏表示的面部表情识别算法识别正确率，验证了在表情库添加高斯噪声后本算法的识别正确率，同时对稀疏表示的表情识别算法做了进一步的改进，利用稀疏表示加LBP算子的表情识别算法，对比了与改进后算法的识别效果，以及对后续研究做了进一步的展望。

王菽裕

（长安大学信息工程学院，陕西西安 710064）

基金项目：2014G3242005

作者简介：王菽裕（1991－），男，长安大学信息工程学院硕士研究生信息与通信工程专业。

摘要：面部表情识别是人机交互领域的重要研究课题，也是一个具有研究前景的课题。本文主要研究了稀疏表示的问题以及在人脸面部表情识别中的应用，针对现有的JAFFE表情库和AR表情库，验证了基于稀疏表示的面部表情识别算法识别正确率，验证了在表情库添加高斯噪声后本算法的识别正确率，同时对稀疏表示的表情识别算法做了进一步的改进，利用稀疏表示加LBP算子的表情识别算法，对比了与改进后算法的识别效果，以及对后续研究做了进一步的展望。

关键词：面部表情；稀疏表示；高斯噪声；正确率；LBP

Abstract：Facial expression recognition is an important research topic in the field of human－computer interaction，is also a prospect of the research subject．This paper mainly studies the sparse representation of the problem and the application in the facial expression recognition，the JAFFE expression library and AR expression library，verify the recognition of facial expres－sion recognition algorithm based on sparse representation accuracy，verifies that the addition of Gauss noise in the expression database after the algorithm accuracy，facial expression recognition algorithm at the same time sparse representation can be improved，the use of sparse representation of facial expression recognition algorithm with LBP operator，compared the algo－rithm with the improved recognition effect，as well as for the follow－up research are prospected．

Key words：facial expression；sparse representation；gauss noise；accuracy；LBP

1 引言

面部表情识别可以为人机智能交互的可靠性和准确性提供可靠的保证。人脸表情信息丰富，常见的基本表情［1］有生气（anger），厌恶（dis－gust），恐惧（fear），开心（happiness），中性（neu－tral），悲伤（sadness），惊讶（surprise）。在现实生活中，准确把握人脸面部表情，对于远程教学系统，驾驶员安全驾驶等情况，有着相当重要的意义。

本文对已有的表情库，通过稀疏表示的方法，验证该算法下的表情识别［2－4］及其准确率，同时还对噪声图片做了进一步的预处理，然后通过该算法验证稀疏表示识别准确率，同时提出了针对表情库的静态图片，先把图片的有效部分（表达表情的人脸区域）裁剪下来，再加上图像的增强和噪声的去除算法，利用稀疏表示来识别面部表情的方法。

2 稀疏表示的分类识别

稀疏表示［5－6］的提出不是为了分类识别的，而是为了以更少的有效的信息表达原始数据，要比传统的奈奎斯特采样率更低，同时可以无损的描述和恢复原始信息。

给定n个训练样本：v1，v2，…，vn由此我们可以构建一个矩阵A＝［v1，v2，…，vn］∈Rm×n，测试样本y∈Rm就可以被训练样本线性表示为：

y＝Ax ∈Rm（1）

上等式通常是过定的，我们可以通过I0范数求解最稀疏解

x0＝argmin‖x‖0subject to Ax＝y　（2）

在上式中‖x‖0是x的I0范数解。如果m＞n，求解（2）式的解就是一个NP难问题，为了求解NP难问题，Donoho和其他的学者已经证明了，如果解x0是足够稀疏的，I0范数的求最优解等价于I1范数的求解：

＾x0＝argmin‖x‖0subject to Ax＝y　（3）

考虑到噪声的影响，稀疏表示模型可以被改写为：

y＝ax＋z 　（4）

在上式中，z∈Rm是噪声因素，而且‖z‖2≤ε。稀疏解x仍旧可以被最小I1范数求解：

给出一个某表情类别中的测试样本y，通过上面的（3）或者（5），首先求得测试样本的稀疏解＾x1，其中非零的元素将对应于矩阵A中的某一列，也就是某一类，然后该测试样本就可以归结为此类。

但是，由于噪声和模型误差的影响，很可能使得一小部分非零的元素与多个类别有关，在这样的情形下，我们选择在所有的训练样本来表示测试样本y的系数里面相关性最好的。为此对于每个类别i，建立一种特征映射关系，让δi：Rn→Rn，选择与第i类相关的系数。假如对于x1∈Rn， δi（x）∈Rn是一个新的向量，这样就使得δi（x）中的非零元素与第i个类别相一致。

根据上述原理，我们对于测试样本y有＾yi＝Aδi（xi），测试样本y所属的类别就可以通过最小的残差来确定：

miniri（y）＝‖y－Aδi（xi）‖ （6）

3 表情图像预处理实验

输入的静态面部图片通常是不统一的非规则的图片，图像预处理就是针对面部表情图像，裁剪表情识别最核心的部分，通过增强算子增强表情特征。针对JAFFE表情库做图像预处理的说明。图1为JAFFE表情库的原始表情图片，从左到右表情依次为高兴，中性，悲伤，惊讶，恐惧，厌恶，生气。图2是裁剪表情识别最核心的部分的对应图片。图3为裁剪后高兴表情添加不同方差的高斯噪声后的图片，是为了检测稀疏表示在表情识别算法中的鲁棒性，从左到右添加方差大小依次为0．001，0．005，0．01，0．05，0．1，0．5。

图1

图2

图3

对于表情识别，直接通过对表情图片归一化后，运用稀疏表示的算法识别表情，可以达到一定的效果；结合传统的LBP［7］算子提取特征在一定程度上提高了表情识别的准确率，LBP编码能够表示面部表情的细节，其大致如下图4所示。

图4 传统LBP算子示意图

本文在LBP算子基础上结合了小波包理论［8］，采用分解和重构的方法，首先将人脸表情图像分解成相互关联的四幅表情图像，即低频图像，水平高频图像，垂直高频图像，对角斜线高频图像；然后进行重构，在重构每种分解的图像时，其他三种分解图像置为零，最后就可以得到与原图像大小一致的表情图像。这样不仅保证了原图像的信息不丢失，而且可以对人脸的眼睛，鼻子，嘴巴等部位的特点更加精确细腻的表达出来，如图5所示。完成重构之后，对人脸表情再采用LBP算法进行特征提取。

小波包理论与小波分解的区别在于，小波包不仅对图像低频实现分解，而且可以对图像高频部分实现再分解，小波包实现算法及其具体原理可以参看论文［9］。小波包3层分解原理结构如下图6所示。

图5

图6 小波包3层分解过程

4 实验分析

4．1 在JAFFE数据库上的仿真实验

由于识别的准确率一方面依赖于算法，一方面依赖于表情库，所以测试方法有两种：在Per－son－dependent验证方法中，我们将从每类表情序列中随机选取大多数的数据作为训练样本，剩下一小部分的数据作为测试数据，这种选取方法并没有区分不同人物，也就是说训练样本集和测试样本集中可能会包含相同的人物；在Person－in－dependent的验证中则是按照人物来区分训练样本和测试样本，即随机选取大部分的人物各类表情作为训练样本，其余剩下的一部分人的表情作为测试样本。

表1为JAFFE表情库中进行表情识别准确率的统计实验，JAFFE日本数据库是由Michael Lyons、Miyuki Kamachi和Jiro Gyoba创建的，该数据库中包含了213幅（每幅图像的分辨率：256像素×256像素）日本女性的人脸表情图像，每幅图像都有原始的表情定义。

表1 JAFFE识别准确率／％

通过上述实验和表格数据分析可知，针对不同的两种验证方法，Person－dependent的方法由于训练库与测试库的数据重合，使得表情识别的准确率明显高于Person－independent的方法；针对三种不同的算法，修正后的LBP算子加稀疏表示的识别效果最好，传统的LBP算子加稀疏算法识别效果次之，而仅仅使用稀疏表示的算法也有较为满意的效果；对于不同的表情，由于开心和惊讶的面部特征最为有特征，所以识别的效果也是最好的，而厌恶和中性表情的识别效果一般。

4．2 在AR数据库上的仿真实验

下表2是在AR数据库上的识别准确率实验测得的数据：

表2 AR识别准确率／％

AR人脸数据库是由Aleix Martinez和Rob－ert Benavente于1998年西班牙巴塞罗那计算机视觉中心创建完成，它包含了126名志愿者（70名男性和56名女性）的超过4000张的彩色人脸图像，每幅图像的分辨率为256像素×256像素。由上表2实验数据分析可知，Person－dependent的方法总体效果优于Person－independent的方法，其中本文的修正LBP算法加稀疏表示的总体识别效果优于其他两种算法，对于尖叫表情来说，其面部特征明显区别其他三种表情，所以取得了最好的识别效果。

4．3 基于SRC＋修正LBP对高斯噪声的鲁棒性实验

表3给出的是JAFFE的数据库，在测试图像被不同程度的高斯噪声污染之后，表情识别的准确率统计结果。噪声程度以方差的形式给出，分别为0．001，0．005，0．01，0．05，0．1，0．5这六个不同的等级。

表3 鲁棒性实验／％

由上表数据分析可知，三种识别算法在Per－son－dependent的验证方法下对误差程度为0．1方差的时候超过了50％的识别准确率，表现了较好的鲁棒性，而Person－independent的方法下本文的算法对误差程度为0．1的识别的准确率为50．8％。

4．4 软件运行

本款软件是用MATLAB编写的，可以实现的功能有：训练表情库，提取测试表情图片，获得表情分类结果，本软件算法的识别准确率的统计。下图7为高兴表情运行结果图，图8为本文算法的识别正确率的统计，统计率为95．625％。

图7 高兴表情识别结果

图8 本文算法总体表情识别正确率统计

5 总结与结论

本文以经典的JAFFE和AR表情库为数据库，以稀疏表示的算法为基础，对表情识别做了一些研究工作，为了提高表情识别的准确率，在稀疏表示的基础上加上修正的LBP算子，在实验中可以看出效果有所提高。同时对识别的算法进行了鲁棒性的实验，在测试表情图片被一定程度噪声污染之后，还能够有较为满意的识别效果。

表情识别的准确率依赖于两个因素，第一是算法的合理性和先进性，稀疏表示的表情识别算法和稀疏表示加修正LBP算子的表情识别算法在实验中可以看出明显的改进效果；第二是训练库，从试验中可以看出，Person－dependent的数据库在理论的层面可以有很好的识别效果，但是实际生活中更加趋于Person－independent的训练库的选择，识别效果明显受到训练库的影响。

致谢

真诚的感谢我的导师宋焕生教授，宋老师严谨的治学态度，敏锐的学术眼光，我很大的启发，他着力培养我思考问题解决问题的能力，让我对自己有了更大的信心。还要感谢马祥老师给予的指导和关怀，论文的写作和完成得到了重要的意见，让我对表情识别领域产生了更加浓厚的兴趣。

同时师门的师兄师姐给予了很多宝贵的意见，在此由衷的感谢他们。

参考文献

［1］ Darwin C．The Expression of the Emotions in Man and Animals［M］．John Murray：reprinted by Uni－versity Chicago Press，1872．

［2］蒋斌，贾克斌，杨国胜．人脸表情识别的研究进展［J］．计算机科学，2011，38（4），25－31．

［3］左坤隆．人脸表情自动分析与识别系统的研究［D］．天津：天津大学2004．

［4］李文．人脸表情识别方法［J］．电子科技，2007，213（6）：63－68．

［5］赵晓．基于稀疏表示的人脸识别方法研究［D］．北京：北京工业大学，2013．

［6］李志星．基于图像特征的稀疏表示人脸识别算法研究［D］．北京：燕山大学，2012．

［7］房德峰．浅谈改进的LBP算法［J］．现代企业教育．2013（16）．

［8］赵明，朱春喜．小波包理论及其在图像处理中的应用［J］．益阳师专学报．1998．