表情识别范文

2024-07-03

表情识别范文(精选7篇)

表情识别 第1篇

关键词:精神分裂症,情绪辨别障碍,微表情,微表情训练工具

0 引言

精神分裂症患者的面部情绪认知能力的受损导致其人际交流技能和社会功能严重受损 (Kohler&Martin, 2006) , 然而过去几十年的研究表明, 通过现有药物治疗精神分裂症并不能改善患者的社会功能 (Bellack et al., 2004) , 而2011年全球各大制药公司由于精神病治疗药物的研发周期长、成功率低等宣布退出精神疾病药物的研发 (Cressey, 2011) , 这使得未来更难有希望出现治疗或改善精神分裂症患者社会功能的新药, 因此需要寻求促进精神分裂症患者社会功能康复的非药物治疗和干预的途径。

研究者们探索通过心理治疗来改善精神分裂症患者的社会功能, 比如通过对精神分裂症患者进行基本认知能力 (注意、记忆、执行控制能力) 训练来促进其社会功能康复, 这取得了一定的效果, 但并不理想, 认知训练只能解释结果中10%-40%的变异 (Horan et al., 2009;Wykes, Huddy, Cellard, Mc Gurk&Czobor, 2011) 。

准确的识别与表达情绪对人们进行社会交往十分重要 (Shen, Wu, &Fu, 2012) , 而精神分裂症患者的情绪知觉能力受到严重损害, 影响其社会功能, 导致其人际交流、家庭关系、社会关系、工作等受到严重影响 (Kee, Green, Mintz, &Brekke, 2003) 。因此, 需要通过提高精神分裂症患者的情绪知觉能力来促进其社会功能康复 (Roberts&Velligan, 2012) 。

在情绪知觉能力的训练中, 微表情训练工具 (micro-expressions training tool, METT) 是较为成熟的 (Marsh, Luckett, Russell, Coltheart, &Green, 2012) , 已被较多研究情绪知觉训练研究所采用, Shen (2012) 等人采用该范式考察了健康大学生对六种基本情绪表情的知觉能力。所谓微表情, 是指一种无法抑制, 快速出现的反映人们真实情绪体验的表情, 对如此快速而精细的表情的识别, 可以促进人们的表情识别能力 (Matsumoto&Hwang, 2011) 。国外有学者采用微表情训练工具在精神分裂症患者的社会功能康复上做了一些工作, 发现微表情训练可以改善精神分裂症患者的社会功能 (Russell, Green, Simpson&Coltheart, 2008) 。下面对精神分裂症患者面部表情识别的特点以及使用微表情识别训练工具改善精神分裂症患者表情识别能力相关研究进展进行概述。

1 精神分裂症患者情绪识别障碍能及情感表达障碍

精神分裂症患者的情绪识别障碍:

精神分裂症患者对面部表情的识别存在障碍, 与正常人相比, 他们不能很好的理解他人面部表情所反应出来的情绪, 理解他人表情中的正确意义。Sachs (2004) 的究表明, 精神分裂症患者对所有类型的情绪知觉都明显低于正常对照组, 并且精神分裂症患者对于正性情绪, 中性情绪及负性情绪的识别能力有所不同。

同时一些研究 (Martin等, 2005) 也表明, 精神分裂症患者在识别负性情绪表情时存在一定的障碍, 不容易感知与识别到他人负性情绪表情, 如愤怒。但精神分裂症患者对正性情绪表情的知觉加工却没有损伤, 在识别正性情绪表情时接近正常人的水平 (这被称为负性情绪表情识别特异性损伤) 。另外精神分裂症患者有把一些负性情绪表情理解为正性情绪表情的倾向。Bediou等 (2005) 的研究发现, 精神分裂症患者在正性情绪表情识别任务中的得分与正常被试没有太大差异, 但是在负性情绪识别任务尤其是负性情绪较强烈时精神分裂症患者的得分显著低于正常被试, 而对于中性情绪表情的识别, 精神分裂症患者总是错误的将中性情绪判断为正性或负性情绪, 对于中性情绪难以做出正确的判断。Lappanen等 (2006) 对缓解期的精神分裂症患者的研究重复了上述发现。

但Danlei等 (2008) 的研究却得出了不同的结论。他们应用信号检测论来确定表情识别的能力和反应判断标准, 结果显示精神分裂症患者对于恐惧, 悲伤等负性情绪的识别能力高于正常被试, 而对于正性情绪, 如高兴, 其识别能力比正常被试低。另外, 精神分裂症患者对负性情绪的判断标准低于正常被试, 对于正性情绪的识别判断标准高于正常被试, 精神分裂症患者对正性情绪有特异性的损伤, 不容易识别出他人的正性情绪, 而更容易把他人的面部情绪更多地理解为负性情绪。这与Bediou等 (2005) 与Lappanen等 (2006) 的研究结论不一致。因此, 并不是所有的精神分裂症患者都表现出负性情绪表情识别的特异性损伤。然而, 大量的研究还是表明精神分裂症患者在面部情绪识别能力普遍的低于正常人 (Russell等, 2008) 。

精神分裂症患者的康复不仅仅在于精神病性症状的消除。改善精神分裂症患者的情绪识别功能, 促进其社会功能的恢复也是精神分裂症治疗中重要的一个部分。近期有研究开始通过微表情识别训练工具来训练提高精神分裂症患者的表情识别能力, 改善精神分裂症患者情绪识别障碍, 促进精神分裂症患者社会功能的康复。

2 微表情及微表情识别训练工具

2.1 微表情简介

微表情是一种持续时间非常短暂, 通常在1/25秒至1/5秒之间的快速表情。微表情最早由Haggard及Iaaacs于1966年发现。1969年, Ekman与Friesen也发现了这种持续时间极短的表情, 他们将其称之为微表情 (吴奇, 申寻兵, 傅小兰, 2010) 。早期的微表情识别研究侧重微表情的识别能力的测量, 考察微表情识别与谎言识别的关系, 并制作了微表情的识别训练计算机程序。

2.2 微表情识别训练工具

微表情训练工具 (Micro Expression Training Tool, METT) 分为5个部分, 即前测、训练、练习、复习和后测。前测用来测量使用METT前被试的基线微表情识别能力, 后测测量使用METT训练后被试的微表情识别能力。通过前测和后测的识别能力的对比来检验经过训练后微表情识别能力的提高程度。Ekman的研究表明 (参考吴奇, 等2010) , METT提供训练程序能在1.5小时的短期训练后提高人识别微表情的能力, 后测的成绩能较前测平均提高30%~40%!

鉴于METT可以迅速的提高表情识别能力, Russel等人 (2008) , Swart等人 (2009) 开始将微表情训练工具应用于临床精神分裂症患者的情绪识别能力训练, 探索METT对精神分裂症患者的社会功能康复的作用。

3 使用微表情识别训练工具改善精神分裂症患者的情绪表情识别能力

2006年, Russell等人率先使用微表情识别训练工具对精神分裂症患者进行情感识别训练 (Emotion Recognition Training) , 希望发现使用微表情识别训练工具对精神分裂症患者进行训练后面部情绪认知障碍能否得到缓解 (Russell等, 2006) 。他们的实验将20个精神分裂症患者作为实验组, 另外20名健康被试作为控制组, 同时给这四十名被试实施微表情识别训练, 对比接受微表情识别训练工具训练前后面部表情识别成绩, 通过比较这两个成绩来判断被试的面部表情识别能力是否有所提高。为了使训练前后测成绩的对比更加有说服力, 这四十名被试不仅接受了微表情识别训练工具中的前测和后测, 在训练前和训练后还分别接受了情感匹配测试EMT (Emotion-Matching Task) 作为另一效标, 通过EMT的成绩变化和METT中的成绩变化同时来检测METT的训练效果。METT成绩结果和EMT成绩结果同时表明, 微表情训练工具确实是有效的, 不管是控制组还是实验组, 在接受微表情识别训练工具的训练之后面部情绪识别能力都有所提高, 特别是实验组的精神分裂症患者在接受微表情训练之后, 他们的面部表情识别能力得分与控制组的被试的前测成绩达到了相同的水平, 也就是说在接受微表情识别训练工具的训练之后, 精神分裂症患者的面部表情识别能力达到了健康人未训练时的水平。在使用微表情识别训练工具进行训练后, 精神分裂症组的被试面部情绪识别能力即可提高到一个引人注目的程度, 这提示使用微表情训练工具对精神分裂症患者进行表情识别训练可能是一种非常有价值的治疗手段。

随后, Russell (2008) 等人对使用微表情识别训练工具改善精神分裂症患者的情绪识别能力受损进行了进一步的研究, 他们采用眼动技术来研究是否眼动轨迹的变化与精神分裂症患者的面部表情识别能力的提高有关。他们选出了40名精神分裂症患者来进行研究, 选取26名患者在积极训练组, 接受微表情识别训练工具的训练, 另外14名精神分裂症患者在反复暴露组 (无训练, 只看相应情绪图片) , 未接受微表情识别训练工具的训练。研究者让这所有的40名被试进行情绪识别任务并且记录其在情绪识别过程中的眼动轨迹。在接受微表情识别训练工具训练之后, 研究者发现积极训练组的26名精神分裂症患者的情绪识别能力有所提高, 并且微表情训练工具带来的表情识别成绩提高效果在训练后维持了一个星期的时间。紧接着在接受微表情识别训练之后, 这些精神分裂症患者的眼动轨迹较反复暴露组的14名被试发生了显著的变化, 在识别面部表情时, 他们更多地注意到了情绪面孔的特征性区域, 如眼睛、鼻子、嘴巴等表达情绪相对比较丰富的部位。面部情绪识别时眼动轨迹在情感表达的特征性区域的注视数目与情绪识别的准确程度呈正比, 精神分裂症患者经过微表情识别训练后的眼动轨迹在情感表达的特征性区域的注视数目增多, 这种变化使得精神分裂症患者的面部情绪识别能力得到提高。一周之后, 在METT训练组和反复暴露组之间的在面部表情识别过程中眼动轨迹中注视面部表情特征性区域的次数差异呈现出减小的趋势, 即微表情识别训练效果一周后开始下降。然而经过微表情识别训练后使精神分裂症患者在面部的特征区域停留的时间增加这一效果一直持续到一周之后。这一实验结果表明, 微表情训练工具使精神分裂症患者的面部表情识别能力得到了提高, 其原因是改变了精神分裂症患者在面部表情识别过程中的眼动特征, 使眼动轨迹更多、更长时间的停留在情绪面孔的一些特征性区域, 从而使表情的识别能力更加准确。

Pamela等人 (2010) 更加深入的研究了使用微表情训练工具对精神分裂症患者进行表情识别训练的问题。他们希望了解三个方面的内容:即第一, 使用微表情识别训练工具进行训练后的效果是否能被精神分裂症患者应用到新的情绪面孔识别当中去;第二, 训练后的效果能否持续到一个月之后;第三, 患者的面部表情识别基线能力是否对训练的效果产生影响, 即患者残存的表情识别基线水平是否能预测表情识别训练的效果水平。他们挑选出36名患有精神分裂症的受试者, 收集这些受试者情绪识别能力和社会功能基线水平, 再给受试者实施微表情识别训练, 在训练结束后给这些受试者进行面部表情识别任务, 任务中使用的面孔有一部分是METT中的面孔, 有一部分面孔未在METT中使用过, 以此来测量这些患者能否把在METT训练中得到的表情识别能力迁移到对新的表情面孔的识别中去。其中有10名患者接受了一个月后的随访。研究结果表明, 微表情识别训练工具对精神分裂症患者的表情识别训练不仅改善了其对METT中面孔的情绪识别能力, 也改善了患者对新的情绪表情面孔的情绪识别能力。接受训练后的患者对于新的情绪表情面孔的情绪识别能力一直持续到一个月之后。另外, 患者残存的情绪识别基线水平对METT训练的效果有影响。结果表明在微表情识别训练工具对精神分裂症患者情绪识别能力的改善效果受到了患者本身的情绪识别能力基线的影响, 而对新的情绪表情面孔较好的情绪识别能力可以持续到一个月以后。

4 结语

精神分裂症患者的社会功能恢复是精神分裂症康复过程中很重要的一个环节, 目前采用微表情训练工具提高精神分裂症患者的表情识别能力进而促进其社会功能康复的研究才刚刚起步, 有待更多更深入的研究。

当前的研究结果均表明提升微表情识别能力可以促进精神分裂症患者的面部表情识别, 精神分裂症患者经过微表情识别训练后其面部表情识别能力得到了提高, 可以达到正常人未受训练前的状态。这为精神分裂症患者社会功能康复提供了另一种可行的手段。

人脸表情识别技术综述 第2篇

心理学家Mehrabian认为, 声音 (38%) +言词 (7%) +面部表情 (55%) =情感表达。在人们的日常交流中, 通过面部表情来传递的信息高达55%, 可见在人与人之间的交流中表情信息的重要性。

面部表情识别

面部表情识别系统一般由人脸图像获取、图像预处理、特征提取、特征分类、后处理五个部分组成。如图1所示。

表情特征的提取

人脸表情提取按图像性质的不同来划分, 可分为静态图像特征提取、序列图像特征提取。

静态图像特征提取

从静态图像中提取的是表情的形变特征, 提取的对象是表情模型。形变特征提取的常用方法有基于模型的方法, Gabor小波法和主成分分析法PCA等。

基于模型的方法。它包括点分布模型PDM和活动外观模型AAM等。点分布模型PDM是一种参数化的形状描述模型。其原理是采用PCA方法构建出描述对象形状的各个控制点的运动模型。通过约束控制点的基准位置与移动模式, 保证模型的整体形变一直保持在可接受的范围之内。活动外观模型AAM建立了一种针对目标对象变化程度的参数化描述, 也属于基于模型的方法之一。

Gabor小波法。Gabor小波滤波器的方向、中心频率及基频带宽均是可调的。它是一个由二维高斯函数衍生出的复数域正旋曲线函数。通过调节Gabor滤波器的不同参数, 能够捕捉到对应图像中不同的空间位置, 空间频率以及方向信息。

主成份分析法PCA。基本原理是在不同表情具有可分性的前提下, 假设人脸处于低维线性空间, 将一组高维训练图像K-L正交变换, 消除原有向量间的相关性的同时生成一组新的正交基。然后, 提取出新的正交基中对应较大特征值的部分特征向量, 生成低维表情特征空间的同时保留原高维空间的主要成分分量。

序列图像特征提取

序列图像特征提取不仅要提取每一帧的表情形变特征还要提取连续序列的运动特征。常用的提取方法有特征点跟踪法, 光流法以及差分图像法。

特征点跟踪法。是选择脸部的显著特征点来进行运动估计, 它仅提取了部分特征点信息而忽略了其他部分脸部信息, 因此部分有用信息可能会丢失。

光流法。光流属于运动特征提取法之一, 基于光流的算法有基于梯度的光流计算法、基于频率域的方法和基于区域匹配的光流计算方法。

差分图像法。是将视频序列中相邻的两帧图像作差分运算, 不为“0”的点代表变化区域, 为“0”的点代表不变区域。由于图像序列中处于极大状态时表情信息最为丰富, 因此在进行表情分析时, 通常将被测帧与标准帧进行差分运算, 来检测该表情所对应的关键帧。

面部表情的分类

表情分类方法通常包含以下几种:

(1) 基于几何特征的方法。通过人脸面部拓扑结构几何关系的先验知识, 利用基于结构的方法将人脸用几何特征矢量表示。

(2) 特征脸方法。将K-L变换用于人脸图像的最优表示, 以训练样本集的总体散布矩阵, 经K-L变换后得到相应的一组特征矢量。

(3) 基于模板的方法。首先定义一个能量函数, 设计一个参数可调的器官模板, 然后通过调整模型参数使得能量函数最小化。

研究中的难点

人类识别人脸信息比较容易, 但用计算机来分析识别人的面部表情是一个相对困难且复杂的问题。关键点在于构建一个情绪模型, 并把它们同人的面部特征及表情变化联系起来。由于人脸是一个柔性体, 而非刚体, 因此很难用某种模型来精确描述。并且表情的识别还依赖于 (1) 外部光照强弱和人脸姿态。 (2) 对人脸的熟悉程度。 (3) 对各种表情的体验。 (4) 计算机没有知识和经验, 不具有举一反三的能力。 (5) 对脸部的注意程度等因素。因此, 这些都是它的难点所在。

展望

人脸表情识别是一个跨学科、富有挑战性的前沿课题, 其研究目的主要在于建立一种友好、和谐的人机交互环境, 使计算机能够通过观察人的脸色变化来行事, 进而营造出一种真正和谐的人机交互环境。目前此项研究尽管已经取得了很多重大成果, 但仍处于研究阶段, 各种算法也还在摸索当中, 不是十分成熟。

基于人脸几何结构的表情识别 第3篇

人类主要是通过两种方式进行交流:语言和非语言。我们不仅可以通过语言来传递信息, 还可以利用其它的方式来表达我们的意图。像脸部表情, 身体动作, 甚至出汗等生理反应。其中, 人的脸部表情在交流当中扮演着尤为重要的角色, 它可以表达非常丰富的信息, 我们可以通过一个人的脸部表情获得他所处的情绪状态, 帮助我们在交流中做出及时正确的调整。

在现今的网络社会里, 计算机已经不仅是用于计算的机器了, 它还应该提供各种使人们之间可以相互交流的功能。其中, 影像的实时传输就是一个很重要的功能。但在有些时候, 因为流量及速度的限制, 影像的传输还是非常缓慢, 这时, 就可以用摄像机里的表情分析器对用户表情进行分析, 然后只传输得到的分析结果, 例如:“您的朋友正在微笑!”, 这也同样能够达到很好的交流效果。用计算机来进行人类脸部表情的识别就可以很好地解决这个问题, 这也使得人的表情识别有着很大的应用前景。

本文提出一种利用人的脸部的几何结构进行表情识别的方法, 在对眼睛和嘴巴的12个特征点进行准确提取的基础上, 把已经得到的特征点连接起来并以向量的形式表示, 称之为特征向量, 把欲识别的表情图像的特征向量与已知的中性表情的特征向量进行长度和方向的比较, 根据人脸表情在生理结构上的先验知识来识别表情, 表情识别的流程如图1所示。

在识别过程中, 本文提出了一个局部表情识别器的概念, 即先对脸部各个器官区域进行表情识别, 再把所有结果综合起来, 以产生识别的结果。在每个局部识别器中, 通过特征向量的变化程度对每个可能的表情进行打分, 因为人脸的表情是很复杂的, 这样做达到了对表情模糊识别的目的。

1特征向量表示法

要在计算机上实现脸部表情的识别, 首先要对脸部结构有一个正确、简洁的表示方法, 即对人脸的建模。众所周知, 人脸的结构大体相同, 所不同的是一些细节上的差异。原始的人脸图像不仅数据庞大, 而且还会随着拍摄条件的变化产生不同的变化。本文是通过几何测量的方法来表示人脸的, 即利用脸部结构的形状特征。虽然在日常生活中, 人们记住或识别一张人脸并不是直接去测量脸部, 但其实已经在脑海中已经对这个人的脸部特征利用几何关系进行了建模。心理学家对影响脸部识别的关键脸部特征进行了大量的研究[1]并得出结论, 主要有两类脸部特征影响脸部的识别。第一类是眼睛、眉毛、鼻子、嘴巴等器官在脸部中的位置;第二类是这些器官相互之间的空间距离, 例如眼睛与嘴巴之间的距离。这些脸部特征都是通过几何方法获得的, 所以, 在以脸部特征为基础的脸部识别系统中, 主要的脸部特征基本就是一些几何特征, 下面将介绍利用特征向量来表示脸部几何特征的方法。

目前国内外已经有很多比较成熟的脸部器官特征点的提取方法了[2,3,4], 在本文中暂不做介绍, 我们假设已经得到了描述眼睛和嘴巴特征的12个特征点。再结合文献[1]中的结论, 我们定义了14个特征向量来表示人的脸部, 如图2所示。其中, 对于第一类特征点, 我们通过定义12个特征向量来定位影响表情的主要器官眼睛和嘴巴, 分别是图中的V1-8以及V11-14;对于第二类特征点, 我们通过定义两个特征向量来描述眼睛和嘴巴的距离, 具体的做法是分别把左右眼睛的底部特征点与嘴巴的顶部特征点相连接, 于是得到图中的V9和V10。每一个特征向量的值都包括两个部分:长度和方向。假设特征向量的起点和终点分别为: (x1, y1) 和 (x2, y2) , 那么该特征向量的值即为: (d, θ) 。其中:

至此, 我们得到了表示人脸特征的14个特征向量。这14个特征向量基本可以表示出一幅人脸的表情图像, 在计算机上可以方便、快捷地计算出它们的值, 同时又模仿了人类识别面部表情的过程, 是一种较好地表示脸部的方法。

2脸部表情的基本特征

人的脸部的表情可以分为高兴、悲哀、惊讶、愤怒、厌恶和恐惧等六种基本的表情[5]。图3显示了当一个人脸模型产生这六种表情时, 面部器官的运动情况。

从图3可以看出, 眼睛和嘴巴是影响表情产生的主要脸部器官, 经过总结这幅图中眼睛和嘴巴的运动规律并结合本文预先定义的12个器官特征点, 得出表1所示的运动规律。

3局部表情识别器的构造

因为人的脸部结构的关系, 通过局部信息组合而成的脸部模型比起考虑全局信息的脸部模型更加有优势, 尤其是当这种模型被用于表情识别时。当通过局部信息对人脸进行分析时, 即使丢失掉一些信息, 其它的完整信息还可以加以利用, 但这些丢失的信息在全局信息分析中就会造成影响。还有, 一些人脸中的局部信息对表情识别来说是无用的信息, 如:额头上的头发、眼镜、胡须等, 这些信息都是进行全局识别时的噪声, 而利用局部信息识别就可以去掉这些没用的信息。本文中所用的脸部模型就是人脸的一些局部信息的组合。

所谓局部表情识别器, 是一套利用人脸的局部特征来进行表情识别的机制, 局部表情识别器对一幅输入的表情图像进行每个可能表情的打分, 以达到表情识别的目的。在构造局部表情识别器之前, 首先定义器官特征向量的减操作。

对于两个特征向量V1和V2, 它们的减操作定义如下:

S=V1-V2= (Δd, Δθ) (2)

Δd=W1×int (Vd-Vd) (3)

Δθ=W2×int (Vθ-Vθ) (4)

其中, W1和W2是权重系数 (在本文中取1) , int () 是取整操作, 结果S是一个二元组。通过特征向量的减操作, 我们得到两个整型的差值, 反映了两个特征向量在距离和方向上的差异。下面便进行局部表情识别器的构造。

在本文的表情识别系统中, 假设已经获得要识别的人的中性表情的图像, 并设该脸部图像的14个特征向量分别为NV1-14, 再设要识别的表情图像的14个特征向量分别为V1-14, 减操作结果的变量如下:

S1-14=V1-14-NV1-14 (5)

因为是利用眼睛和嘴巴这两个器官进行识别, 首先构造两个局部表情识别器, 记为R1和R2, R1是基于眼睛的局部表情识别器, R2是基于嘴巴的局部表情识别器。再构造局部表情识别器R3, 用于判别眼睛和嘴巴之间的相对位置。高兴、悲哀、惊讶、愤怒、厌恶和恐惧这六种基本表情我们分别用E1-6表示, 首先把它们置零。参考表1中脸部器官特征点的运动规律并结合14个脸部器官特征向量的分布, 分别构造R1、R2、R3如下:

算法1R1的计算

if S3, 8·Δd>0 and

S3, 8Δθ>0andS4, 7Δd<0E1+=Wd× (S3Δd+|S4Δd|) +Wθ×S3Δθ

if S1, 2, 5, 6·Δd>0 and

S1, 6Δθ<0andS2, 5Δθ>0E2+=Wd× (S1Δd+S2Δd) +Wθ× (|S1Δθ|+S2Δθ)

if S1, 2, 5, 6·Δd>0 and S1, 2, 5, 6·Δθ>0

E3+=Wd× (SΔd+SΔd) +Wθ× (SΔθ+SΔθ)

if S3, 4, 7, 8·Δd>0 and S3, 4, 7, 8·Δθ>0

E4+=Wd× (SΔd+SΔd) +Wθ× (SΔθ+SΔθ)

if S1, 2, 5, 6·Δd<0 and S1, 2, 5, 6·Δθ<0 and

S3, 4, 7, 8·Δd<0 and

S3, 4, 7, 8Δθ<0E5+=Wd×|S1Δd+S3Δd|+Wθ×|S1Δθ+S3Δθ|

ifS2, 5Δθ<0andS4, 7Δθ>0E6+=Wθ× (|S2Δθ|+S4Δθ)

算法2R2的算法

if S13, 14·Δd>0

E1+=Wd× (S13·Δd+S14·Δd)

ifS11, 12, 13, 14Δd<0E2+=Wd×|S11Δd+S12Δd|

if S13, 14·Δd<0 and

S11, 12Δθ>0E3+=Wd×|S13Δd+S14Δd|+Wθ× (S11Δθ+S12Δθ)

if S11, 12·Δd<0 and

S13, 14Δθ>0E4+=Wd×|S11Δd+S12Δd|+Wθ× (S13Δθ+S14Δθ)

if S13, 14·Δd<0 and

S13, 14Δθ<0E5+=Wd×|S13Δd+S14Δd|+Wθ|S13Δθ+S14Δθ|

if S11, 12·Δd>0

E6+=Wd× (S11·Δd+S12·Δd)

算法3R3的算法

if S9, 10·Δθ>0

E1+=Wθ× (SΔθ+S10·Δθ)

if S9, 10·Δd>0

E5+=Wd× (SΔd+S10·Δd)

其中, WdWθ分别是器官特征向量距离和方向变化的权重系数 (在本文中取1) 。在以上三个局部表情识别器中, 取一个或几个对表情产生最大影响的特征向量的距离和方向的改变通过权重值对表情进行打分, 从而实现表情的局部识别。下面把从局部表情识别器中得到的结果经过数据融合, 以产生最后的识别结果。

4数据融合

所谓数据融合, 就是把在局部识别器中得到的数据加以整合利用, 产生整体的识别结果的过程。为了实现上的简便, 我们通过把每个局部表情识别器中产生的结果进行加运算, 从而产生对表情的整体识别结果。当每个局部表情识别器被结合到一起时, 每一种表情都得到了它最后的分数, 得分最高的那个表情就是识别的结果, 分数代表该表情的程度。

对于每一个基本表情, 我们可以定义几个阈值来判定该表情的程度。例如, 对于“笑”这个表情, 我们定义T微笑和T大笑这两个阈值 (T微笑<T大笑) 。如果E1>T大笑, 那么就是大笑;如果T大笑>E1>T微笑, 那么就是微笑。

之所以选用数据融合的方法对脸部模型进行表情识别是因为, 在数据融合的过程中, 一个或者几个识别器的失败并不会影响整个识别的过程, 并且新的识别器可以方便地加入数据融合器中。数据融合器还具有模糊表情识别的功能, 因为人的表情是多种多样的, 在一个表情中可能包含着多种基本的表情, 通过数据融合器中的表情打分机制, 按照表情相似程度的顺序, 就可以实现表情的模糊识别。

5实验结果

在实验过程中, 采用的脸部图像是256×256像素大小的正面256级灰度图, 采用C++语言实现算法, 经过对多幅表情图像进行识别, 实验结果验证了算法的有效性。图4给出了一个实验结果, 是对蒙娜丽莎表情图像的识别。实验结果表明该识别器具有较高的正确率。

6结论和下一步工作

本文介绍了一种利用人的脸部的几何结构进行表情识别的方法。在准确提取脸部器官特征点的基础上, 把得到的特征点连接起来并以向量的形式表示, 称之为特征向量, 用这些特征向量来表示人脸, 然后利用一套识别规则进行局部表情识别, 最后通过数据融合的方法得到识别结果。经实验这种识别方法具有较好的效果。

虽然本文基本已经达到了预期的目的, 但所做的工作还是初步的。本文中所用的脸部图像都是固定位置和大小的, 而现实中的图像是多种多样的。这就首先需要利用人脸结构的先验知识建立人脸模板, 通过模板把人脸与背景分离开来, 即人脸的定位。本文为了简化算法只提取了眼睛和嘴巴上的12个器官特征点来表示脸部, 其实还有更多的器官特征点影响着人的脸部表情, 为了使系统更加准确和健全, 这些特征点在以后的工作中也应该提取出来。本文都是在二维的环境下进行的, 为了产生更好的效果, 需要把它们转化为三维, 这样就可以从人脸的各个侧面进行分析, 提高了识别的准确程度。

摘要:介绍一种利用人脸部几何结构进行表情识别的方法。在对眼睛和嘴巴的12个特征点进行准确提取的基础上, 把已经得到的特征点连接起来并以向量的形式表示, 称之为特征向量, 把欲识别的表情图像的特征向量与已知的中性表情的特征向量进行长度和方向的比较, 根据人脸表情在生理结构上的先验知识通过局部表情识别和数据融合来识别表情。

关键词:特征向量,局部表情识别,数据融合

参考文献

[1] Rhodes G.Looking at faces:First-order and second-order features as determinants of facial appearance.Perception, 1988, 17:43-63.

[2] Cohn, J F, Zlochower, Lien.Automated face analysis by feature point tracking has high concurrent validity with manual FACS coding.1999:35-43.

[3]Shihong Jeng and Hong Yuan.Facial feature detection using geomet-rical face model:an efficient approach.Patt Recog, 1998, 31 (3) :273-282.

[4] Chow G, Li X.Towards a system for automatic facial feature detection, Pattern Recognition, 1993, 26.

实时人脸表情识别方法的研究与实现 第4篇

人脸表情不仅在人与人交流中起到重要作用,也是使计算机更准确理解人类思想,实现人机交互的一个重要研究内容[1,2]。为更好地进行人脸表情识别算法的测试开发,文中基于网络摄像机搭建实时人脸表情识别系统,可以实现实时人脸检测及表情识别功能。表情识别系统的搭建为表情识别算法提供分析依据,也为人脸表情的实用化开发和应用提供硬件基础。

表情识别系统主要由一台网络摄像机和软件功能模块构成。由摄像机在现实环境中实时采集视频图像信息,对视频的每一帧单独进行计算。系统工作流程如图1所示。软件部分,使用人脸样本训练分类器,进行人脸检测,利用自建的表情库进行表情分类器训练,实时识别人脸表情。

人脸表情识别是系统的中心环节,其特征提取过程为先采用Gamma校正的Retinex方法[3]进行图像增强,再使用HOG算子[4]对增强后的图像进行梯度直方图特征提取。并对提取的人脸表情特征使用最近邻分类器进行分类。该系统能够克服光照的影响,在一定范围内跟踪检测人脸,同时能快速识别表情并实时输出结果。

1基于Retinex理论和HOG算子的特征提取

1.1Retinex理论

Retinex是Edwin Land提出的一种颜色恒常色彩理论。传统图像增强算法只能增强图像的某一类特征,如线性变换、图像锐化等。Retinex可以在灰度动态范围压缩、 边缘增强和颜色恒定三方面达到平衡,因而可以对不同类型的图像进行自适应的增强[3]。

图像的形成主要由两部分构成: 入射光L( x,y) 和反射物体R( x,y) ,最后形成的图像用公式表示为:

Retinex理论的目的就是为了从图像I( x,y) 中抛开入射光的影响来获得物体的反射性质。为了将复杂的乘积形式转化为简单的加减运算,采用了接近人眼亮度感知能力的对数形式表示:

用Retinex理论进行图像增强,关键是从原图像中有效的计算出亮度图像,除去亮度图像的影响,得到反射物理的性质。但是,从原图像中计算亮度图像在数学上是一个奇异问题,只能通过近似估计的方式估算。经典Retinex算法亮度图像运算估计复杂,文中提出一种基于单尺度Retinex的Gamma校正图像增强算法。先对亮度图像进行粗估计,再通过Gamma校正对图像粗估计的结果进行补偿[5]。算法流程如图2所示。

a) 单尺度Retinex算法

Jobson根据中心 / 环绕Retinex算法理论,提出单尺度Retinex算法[3]。设亮度图像为L( x,y) 是平滑的,原图像为I( x,y) ,反射图像为R( x,y) 。则有:

在对数域中,单尺度Retinex可以表示为:

其中,* 表示卷积,G( x,y) 为环绕函数,一般采用高斯函数表示。

式中,G( x,y) 满足∫∫G( x,y) dxdy = 1,λ 为常数。c为尺度常量,c越大,灰度动态范围压缩的越多,c越小,图像锐化的越明显。

b) Gamma校正

Gamma校正能对反射图像进行动态范围压缩,也能调节反射图像在增强后图像中的比例[5]。可表示为:

式中,γ 为正数,把校正后的反射图像和亮度图像在对数域相加,再进行反对数运算,可以得到增强后的图像。

实验结果表明,所提出的算法同经典的Retinex算法相比,可以提供更好的动态压缩范围、增强对比度和图像锐化,有更好的视觉增强效果。

1.2HOG算法

梯度方向直方图( HOG) 用于模式识别是最近出现的一种方法。HOG特征描述算子属于差分模式的信息提取方法,出自Lowe的尺度不变特征变换SIFT算法的最后一步,由于其有效的表达能力,受到了普遍的关注[4]。

HOG算法的步骤如下:

以关键点为中心取8 × 8的像素邻域作为采样窗口, 然后将采样窗口平均分为4个相等大小的块,每个块大小为4 × 4,分别计算每个小块上每个像素的梯度方向和梯度幅值。

其中,R( x,y) 是图像上( x,y) 坐标上的像素值,θ( x,y) 是该点的梯度方向,m( x,y) 是该点的幅度值。这里梯度方向分为有符号的8个方向。如图3所示,圆圈的高斯加权范围,将同一小块上所有点相同梯度方向的幅度值按照权重累加,组成该小块的一个8维梯度直方图,其他小块以此类推。将4个块的8维梯度直方图求出后,将它们连成一个4 × 8 = 32维的关键点特征描述。

2人脸表情分类识别

人脸表情分类识别就是对人脸表情信息进行特征提取并分类的过程。通过人脸表情HOG特征模型的训练, 为每一种人脸表情训练一组优化的HOG模型。采用同一种表情的多幅人脸图像训练一种表情的HOG模型[6]。 对于7种表情,共需要训练7组HOG模型。

对于每一个HOG模型训练步骤如下:

Step1: 选择表情人脸图像,通过人脸检测定位,尺寸归一化,得到高度96 mm、宽度80 mm的脸部图像。

Step2: 将表情图像作为输入图像I( x,y) ,利用高斯函数与原图像的卷积操作进行亮度图像估计,得到图像L ( x,y) ,对原图像I( x,y) 进行对数运算,除去其中的亮度因子得到粗估计反射图像r( x,y) 。

Step3: 对粗估计反射图像r ( x,y) 进行Gamma校正, 并在对数域和亮度图像相加,进行反对数运算得到增强后的图像R( x,y) 。

Step4: 将增强后的图像R( x,y) 以8 × 8的像素邻域网格作为采样窗口,以无重叠的方式遍历整个人脸图像,可以得到12 × 10 = 120个小块网格形式,分别计算每个像素点的梯度方向和幅值。

Step5: 在每个小格内按照4 × 4像素大小的块统计HOG特征。取梯度方向为8,高斯权值均为1,将块内相同梯度方向的幅值乘以权值后相加,然后将网格内各块的直方图连成一个向量。最后将每个小块的32维梯度直方图串联,得到整个图像的表情特征,为12 × 32 = 3 840维梯度直方图。

通过训练,得到7种表情的7组HOG特征值,将其分别存入分类器中。采用最近邻域方法实现表情的分类过程,对于测试样本重复上述步骤,完成HOG特征值提取, 依据最短欧几里得距离作为判定准则,在各个分类器中寻找与测试样本距离最近的训练样本,该训练样本所对应的表情类别,即是测试样本的表情类别。

3实验结果及分析

实验所用的摄像机是智能变速球形网络摄像机TC D6系列,摄像机内置编码器,采用RS - 485总线控制。利用该网络摄像机完成的软件功能模块设计包括三个主要的部分: 图像采集模块、人脸检测及预处理模块、人脸表情识别模块。

3.1图像数据采集

图像数据采集[7,8]是利用厂商提供的SDK开发包, 从底层接收视频图像信息,在程序入口中添加代码。而入口函数在程序初始化时已经被调用,并用于对摄像机发送到程序的各类消息作出响应。其数据采集过程如图4所示。

函数中定义静态变量用以保存图像的帧号,当接收到消息时,判断其成员变量若为所需要 的图像数 据emCBMsg Type_RGB32,则将所需数据指针存入队列中。队列成员变量具有先进先出( FIFO) 的特点,便于对图像数据的读取及进行后续处理工作。

3.2人脸检测及图像预处理

对采集到的 图像数据,利用Adaboost算法基于Open CV平台进行人脸检测。基于opencv的人脸检测包括两方面内容: 训练分类器和利用训练好的分类器进行人脸检测。目前人脸检测分类器大都是基于haar特征,利用Adaboost学习算法训练的。

人脸检测过程,首先生成样本描述文件。采用MIT CBLCL图库训练人脸,其中正样本放在train faces文件夹下,有2 429个样本。负样本放train nonfaces文件夹下, 有4 548个样本,这些样本都是20 × 20的。通过命令提示符cmd指令分别进入正负样本目标目录,分别生成正负样本. dat文件。通过Open CV程序生成的Haar Training. exe可执行文件,生成训练分类器所需要的正样本. vec文件。然后训练分类器,此文件由Open CV程序生成的可执行文件Haar Training. exe完成,通过此过程生成的. xml文档,即是所需要的分类器文件,可用于目标区域的检测。

训练后所得到的级联分类器共20级,每级包含的弱分类器个数如图5所示。

利用已经训练好的人脸分类器,在不同背景条件、不同光照强度的试验环境下进行人脸检测测试。表1为不同背景下分别测试的结果对比,其中测试图片为简单背景和复杂背景下的各50张包含人脸的图片。

图6为复杂背景下人脸检测效果图,通过试验得出, 系统能够准确地将人脸从背景中检测出来,并对人脸目标进行稳定的实时跟踪。

将检测到的人脸区域进行高斯平滑、颜色空间转换, 得到灰度图像,并对其进行亮度调节,再进行图像增强,最后根据双线性插值法进行人脸图片大小归一化处理。如图7所示为图像预处理过程图,依次分别对应原图像、高斯平滑图像、灰度图像、亮度调节图像、增强图像。

3.3实时人脸表情识别系统

将融合Renitex图像增强理论的HOG算法应用于网络摄像机的实时人脸表情识别系统。在人脸表情识别前, 先进行表情分类器训练。人脸表情训练分类器的样本是用摄像头采集的表情图库,取每种表情各5张,共35张图片。表情图库是由人脸检测模块提取的有效人脸区域,再由表情分类器进行训练。成功训练表情分类器后,利用网络摄像机进行表情识别实验。当摄像机采集视频图像成功检测提取人脸区域并预处理后,对表情进行实时识别并输出识别结果。如图8所示为建立表情库举例。

实验是在Visual Studio 10操作环境下运行,软件在Inter Core i3 - 2100,3. 09GHz,4G内存PC机上完成。图9为表情识别系统运行界面。摄像机显示得到的视频大小为1 080P,视频编码标准为H. 264。当设置好界面右侧各选项后,点击Login Device按钮,程序便会和摄像机建立通讯,然后按下Open Channel按钮,摄像机采集到的视频便会显示在界面左侧窗口。

实验选取志愿者分别做出高兴、惊讶等不同表情,进行实时表情识别系统测试。图10为部分志愿者表情识别结果展示。表2列出了包括中性表情在内的7种表情的具体识别结果。

由表2可以看出,惊讶、高兴等夸张的表情识别效果很好,对于害怕、中性等容易混淆的表情,系统误识别率相对较低。这种现象主要原因有两个: 1) 测试表情是实时采集的,参与实验的人员未经过专业训练,不能到位的模拟各种表情; 2) 表情是在实际环境中测试,环境和光线强度的变化对实验影响较大。由实验结果可以看出,文中所设计的表情识别系统稳定,识别速度快,能达到实时表情识别的要求。

4结论

基于网络摄像机进行实时人脸表情的方法研究及实现,针对经典Retinex算法亮度图像复杂的运算,基于单尺度Retinex算法进行Gamma校正。将增强后的人脸图像进行HOG表情特征提取,通过最近邻分类器进行表情分类,提高了表情识别率和鲁棒性。

表情识别 第5篇

表情是人类用来表达情绪的一种基本方式, 是非语言交流的一种有效手段, 它在沟通、社交和心理暗示上都代表着强烈的意义。心理学家把人脸表情分为高兴、悲伤、惊讶、生气、厌恶、恐惧[1]这六种基本表情, 其余表情都是这六种表情的组合。近年来, 针对这方面的研究有了一些新的进展[2,3,4,5], 但是如何高效、准确地识别出表情, 仍需进一步地研究。

由于身份不同带来的差别, 往往比表情不同带来的差别大, 许多成熟的人脸识别方法用于表情识别很难凑效。不久前, Vasilescu[6]等人提出了基于张量脸 (Tensorfaces) 的方法, 在个人子空间和表情子空间里分别实现人脸和表情的识别。Gralewski等人[7]将张量分解法用于序列图像, 对人脸、表情和性别的聚类进行了研究。然而, 张量分解法需要处理的数据量相当大, 完成起来相当费时, 而且张量的图像模式数据, 是通过人工选取获得, 这给实际应用带来了一定的困难。

与此同时, 部分学者提出了利用流形学习来识别表情的方法, 如:Chang[8,9]等人提出了基于流形的表情分析方法, 它需求得每人的表情流形结构, 并将其配准到标准形, 才能识别出表情, 这对配准处理提出了很高的要求。Lee[10]等人提出了一种流形学习与张量分解相结合的表情识别算法。Shan[11]等人提出了一种基于监督式保局投影 (Supervised Locality Preserving Projections) 的表情识别方法, 先使图像按其表情来聚类, 然后识别出表情。但是, 保局投影不能保留局部以外的数据结构关系, 这使各类表情图像的分离不够, 各聚类区域有重叠发生, 从而给表情识别带来了不利的影响。

本文提出了一种基于监督式等距映射 (Supervised Isomap) 的人脸和表情识别方法, 用监督式等距映射对训练图像进行投影, 使训练图像按其身份来进行分离, 而在同身份图像的内部, 图像又实现了按其表情的聚类。并用非线性投影将待测图像嵌入到投影空间, 最后, 采用加权knn分类器, 识别出待测图像的身份和表情。该方法在一次投影的基础上, 实现了身份和表情的同时识别, 操作比较简便。

1 算法描述

1.1 监督式等距映射原理

设有一训练集X= (x1, ..., xN) , 包含了m个对象的高兴、悲伤、惊讶、生气、厌恶、恐惧这六种表情, xi是由人脸图像组成的图像列向量 (xi∈Rn) 。对训练集的监督式等距离映射步骤如下:

1) 定义赋权无向图求出训练集中每个点的k1个近邻点, 如果xi与xj互为近邻点, 则xi到xj的距离为d (i, j) =||xi-xj||, 否则定义为∞。

2) 计算测地距离矩阵用Dijkstra算法, 计算所有向量间的最短距离dG (i, j) , 所得的测地距离矩阵表示为D={dG (i, j) }。

3) 监督调整测地距离矩阵根据xi与xj是否具有相同的身份和表情对测地距离作如下调整:

当xi与xj的表情不同时, α=1, 否则α=0;当xi与xj的身份不同时, β=1, 否则β=0。这里的∆1是向量间测地距离的最大值, ∆2是同身份图像向量间测地距离的最大值 (∆1<∆2) , 调整后的测地距离矩阵为

4) 求低维流形坐标令S={Sij}={d G* (i, j) 2}, τ (D*) =-HSH/2, H={δij-1/N}。训练集X= (x1, ..., xN) 的低维流形坐标为Y=[λ1v1, ..., λdvd]T, 这里, λ1, ..., λd是矩阵τ (D*) 的前d个最大特征值 (λ1≥λ2≥, ..., λd) , v1, ..., vd是其对应的特征向量。

在经典等距离映射流形学习算法中, 我们加入了步骤3, 使原图像映射到低维流形空间后, 同身份的图像聚集成一个大的簇, 在同身份图像的内部, 不同表情的图像又聚集成了较小的簇, 而且簇间无重叠。

1.2 待测图像嵌入

我们用非线性投影方法, 建立训练集X={x1, ..., xN}与流形空间坐标Y={y1, ..., yN}, (yi∈Rd) 的对应关系, 核函数采用高斯径向基函数

{z1, ..., zc}是X的c个聚类中心, 用k均值聚类算法求出, σi=1pj∑p=1 (zi-zj) {z1, ..., zp}为聚类中心zi的p个近邻中心, 一般p取2。令ψ (x) =[φ (x, z1) , ..., φ (x, zc) ]T, x与y的对应关系为

W是个d×c的系数矩阵, 求解式 (5) 的d×c个线性方程组得到系数矩阵W各元素的值。

若矩阵[ψ (x1) , ..., ψ (xc) ]非奇异, 则有W=[y1, ..., yc][ψ (x1) , ..., ψ (xc) ]-1, 待测图像向量xj嵌入到流形空间后, 对应低维坐标为

1.3 人脸和表情识别

我们采用加权knn分类器, 来识别yj的身份和表情。在Y={y1, ..., yN}中, 求出yj的k2个近邻点, 受文献[12]的启发, 我们定义yj与它的近邻点yj具有相同身份和表情的概率为

t为一预先设定的常数, t=γ|yj-yk2||2 (yk2为yj的第k2个近邻点, 0<γ<∞) γ用来调节衰减速度。为了与概率度量相一致, 对p (zm|zi) 进行归一化处理:

用式 (9) 、 (10) 计算yj属于各类身份和表情的总概率Pxid和Plex

其中:ωx表示流形空间中, 身份标签为x的向量集, lµ表示表情标签为l的向量集。如果某种身份或表情的向量没有在yj的k2个近邻点中出现, 则yj为这种身份或表情的总概率为0, 最大idPx和Plex值所对应类别就是yj的身份和表情类别。

2 实验与分析

2.1 实验

实验是在Cohn-Kanade[13]和JAFFE人脸库上进行的, Cohn-Kanade人脸库含有210个对象的6种表情序列 (高兴、悲伤、惊讶、生气、厌恶、恐惧) , JAFFE人脸库包含了10个人的213幅256×256的8位灰度图像, 每人做出7种基本表情 (包括中性表情) , 每种表情图像有3或4幅。我们从Cohn-Kanade人脸库中选取了15个对象的六种表情序列, 每个表情序列选12幅图像, 共1 080幅图像, 图1为Cohn-Kanade人脸库中的一些样本, 图像经裁剪后分为两个相等的子集, 各有540幅图像。将JAFFE人脸库分为140幅和73幅的两个子集 (包括中性表情) , 图2为JAFFE人脸库中的一些样本。

我们分别采用了Isomap+knn、SLPP+knn、本文的算法 (简记为SIsomap) 分别进行人脸和表情的识别, 加权knn分类器的k2=7。实验时, 我们先将其中一个子集作为训练集, 另一个作为测试集进行实验, 再交换训练集与测试集进行实验, 计算出人脸和各种表情的平均识别率, 具体数据如表1所示。

图3是Cohn-Kanade人脸库中15人的图像经等距映射和监督式等距映射后得到的表情流形, 图4 (a) 和 (b) 分别为图3 (a) 和 (b) 中某一人的表情流形放大图, 为了可视化我们只取了流形坐标的前3个值作为x, y, z的坐标值 (图中“*”代表厌恶, “☆”代表惊奇, “◇”代表悲伤, “□”代表生气, “○”代表恐惧, “+”代表高兴) 。

2.2 实验分析

从图3和图4可知, 监督式等距映射算法, 很好地实现了图像的按身份分离和同身份内部图像的表情聚类。综合表1的数据得到, Isomap+knn的平均人脸识别率为93.05%, 平均表情识别率为76.42%。SLPP+knn不能用于识别人脸的身份, 它的平均表情识别率为84.86%。本文方法的平均人脸识别率为97.75%, 平均表情识别率为87.55%。从以上数据可以看出, 本文提出的方法有较好的识别效果。

结束语

双层次分类方法下的人脸表情识别 第6篇

人脸表情识别在人机交互、机器视觉、人脸识别、行为科学和精神分析等方面有着广泛的应用,成为了研究热点[1,2,3,4,5,6,7]。目前,人脸表情识别一般通过一次分类来完成。Zhao等人[1]采用Gabor小波+LBP (Local Binary Pattern) 特征提取和最近邻域分类方法,获得了63.51%的整体识别率;Tang等人[2]采用组合距离方法,获得了88%的整体识别率;陈培俊[3]利用AAM (Active Appearance Models) 模型,结合粗糙集理论,用SVM (Support Vector Machines) 作为分类方法,获得了83.70%的整体识别率。该类方法结构简单,待分类的表情数目较多,导致整体识别率较低。而且在对大多数实验结果和实验设置条件的研究中发现[4,5,6,7],高兴与惊讶2种基本表情识别率比较高,其余4种基本表情+中性表情 (共5种表情) 识别率相对较低;不包含中性表情的识别率明显高于包含的;选用的人脸图像表情夸张程度大的识别率明显偏高,如文献[6]。

本文针对目前一次分类方法存在的问题和大多数实验结果的数据,提出了一种双层次分类方法。该方法在粗分类层次,通过SVD (Singular Value Decomposition) 方法提取人脸表情特征,然后结合SVD方法下建立的7个HMM (Hidden Markov Model) 表情模型分类,首先判断出待识别表情是否属于识别率高的高兴与惊讶表情,如果是,那么就结束分类,输出表情识别结果;反之,进入细分类层次,通过更加有效的Gabor小波+PCA+LDA (Principal Components Analysis+Linear Discriminant Analysis) 表情特征提取方法,然后结合在新特征提取方法下新建的5个HMM模型进行表情最终识别。本文表情分类结构如图1所示。

2、人脸表情粗分类层次

采用SVD方法提取人脸表情特征和HMM模型分类。

2.1 人脸表情特征提取

矩阵的SVD[7]是一种有效的代数特征抽取方法。由于高兴与惊讶表情特征信息突出,识别率较高,利用SVD方法即可简单快捷提取出作为粗分类层次下的特征信息。因此,本文采用SVD方法来提取粗分类层次的人脸表情特征。

(1) 人脸表情的SVD特征提取

一幅人脸表情图像可由矩阵Am×n来代表,那么对A进行奇异值分解为

其中U和V是两个正交矩阵,D是一个对角矩阵,D=diag (σ1, σ2, …) 。如果A只有k个非零奇异值,则

其中ui和vi是U和V的各个列。记

称为图像矩阵A的奇异值向量。

对于图像实矩阵A,它的奇异值分解是唯一的,所以在σ1≥σ2≥…≥σk的限制下,人脸表情图像A对应于一个唯一的奇异值特征向量,并利用这个特征向量作为粗分类层次的表情特征。

2.2 粗分类层次下的人脸表情HMM分类

HMM[8,9]是一种处理时序变化信号的概率模型,它通过对大量样本的训练学习得到,对信号变化的适应能力很强,在语音识别中有着广泛的应用。

(1) HMM人脸表情状态

对于正面人脸表情图像,可以认为额头、眼睛、鼻子、嘴巴和下巴这五个显著特征区域隐含着5个“状态”,并对应到HMM的状态,通过观察序列来对它进行估计。因此,人脸表情的HMM模型状态结构及非零转移矩阵概率aij如图2所示。

(2) HMM人脸表情训练

人脸表情HMM模型的训练就是要为每一种人脸表情训练一个优化了的HMM模型,这里采用同一种表情的多幅人脸表情图像来训练一个HMM模型,对于7种人脸表情,共需要训练7个HMM模型。

设人脸表情图像高度为H,宽度为W,用L×W的采样窗对表情图像从上到下进行采样,其中两个相邻采样窗之间的重叠部分为P,采样数T为:

每一个HMM模型的训练步骤如下:

第一步:对一幅66×55 (H×W) 的人脸表情图像,选取采样窗为17×55 (L×W) ,重叠部分P=16,那么对采样窗进行SVD后,可得到了一幅人脸表情图像的观察序列,其大小为6×50,记为O=O1O2...OT。

第二步:建立HMM模型λ= (A, B, π) 。取状态数N为5,状态转移概率矩阵A为5×5。

第三步:将训练数据均匀分割,与5个状态对应,得到每个状态向量大小为6×10,给出模型的初始参数π0=[1],并初始化状态转移概率矩阵A0。

结合混合高斯概率密度函数[14]和人脸表情的HMM模型状态S={s1, s2, …, s5},可得到在状态sj的观察向量的高斯概率密度函数:

第四步:初始模型确定下来以后,采用Baum-Welch算法对参数进行重估计,迭代调整模型参数以达最优化。

这样就完成了训练建模工作,获得了在粗分类层次下代表7种人脸表情的HMM模型λl= (A, B, π) (l=1, 2, …, 7) 。

(3) 粗分类层次下的HMM人脸表情分类

对待识别的人脸表情图像,按本节(2)中模型训练步骤的第一步获得观察向量O,然后计算观察向量O与已训练好的HMM模型λl= (A, B, π) 的似然概率P (O|λl) (l=1, 2, …, 7) 。通过Forward-Backward算法来计算似然概率,如果P (O|λi) ,i∈ (1, 2, …, 7) 在P (O|λl) (l=1, 2, …, 7) 中最大,即

则将该待识别人脸表情判别为第i类表情。如果待识别的表情属于高兴与惊讶表情,那么识别结束,输出结果;反之,将进行人脸表情的细分类。

3、人脸表情细分类层次

针对不易识别的表情种类(除高兴与惊讶表情外的剩余4种基本表情+中性表情),采用Gabor小波+PCA+LDA特征提取和HMM模型分类。

3.1 人脸表情特征提取

Gabor小波能够增强边缘以及峰、谷、脊轮廓等底层图像的特征,适合用于提取人脸表情纹理特征。因此,本文采用Gabor小波来提取粗分类层次的人脸表情全局特征。然后,再采用PCA+LDA方法进行降维,建立用于分类识别的表情特征。

(1) 构造Gabor小波

Gabor小波核函数定义如下[10]:

对于数字图像,需要将Gabor小波参数和方向φ进行离散化,通常在5个尺度ν∈{0, …, 4}和8个方向μ∈{0, …, 7}上采样实现:

其中,kmax为最高频率的带通滤波器中心频率,f是一个限定频域中核函数距离的间隔因子,通常选取

(2) 人脸表情的Gabor小波特征提取

一幅人脸表情图像的Gabor特征表示就是将该图像与Gabor小波卷积的结果。假设表示一幅图像的灰度分布,则其Gabor特征表示为:

其中,是Gabor核函数,就是相对于尺度μ、方向v的Gabor小波卷积结果。针对人脸图像,本文通过实验确定在3个空间频率ν∈{0, 1, 2}和8个方向μ∈{0, …, 7}上进行采样,形成24个Gabor滤波器。

(3) PCA+LDA特征降维处理

一幅66×55大小的人脸表情图像的Gabor小波特征数据高达87120维(66×55×24),后续处理非常困难。针对特征数据高维的问题,本文采用PCA+LDA来降低维数。

假设N个人脸表情样本图像用m维的特征矢量xi (i=1, 2, …, N) 表示,首先对每个样本图像xi进行归一化,转换为符合正态分布N (0, 1) 的矢量x′i,然后再组合构成矩阵X=[x′1, x′2, …, x′N],其协方差矩阵Q=XXT。求协方差矩阵Q的特征矢量E,其中λE=QE,λ为特征值,将特征矢量按照特征值的大小排序,取前n列特征矢量即得到m×n的线性变换矩阵Wpca。即经过PCA[11]变换后,得到特征矢量为:

其中,为Wpca的转置,yi为n维的列向量。

再经LDA[12]变换后,得到特征矢量为:

其中,Wlda为n×k的线性变换矩阵,zi为k维的列向量,k≤c-1, c为类别数。Wlda可通过求解矩阵的特征值和特征向量获得,Sw为类内散度矩阵、Sb为类间散度矩阵。

3.2 细分类层次下的HMM人脸表情分类

本层次下的HMM人脸表情分类只针对不易识别表情,即除高兴与惊讶表情外的剩余4种基本表情+中性表情,进行训练建模和分类识别。其中,每一个采样窗需进行Gabor小波变换,再经过PCA+LDA降维,最后得到4维特征列向量,这样一幅人脸表情图像的观察序列的大小为4×50,其他训练建模过程和分类识别与粗分类层次一致。

4、人脸表情实验及分析

本文在JAFFE (Japanese Female Facial Expression) 表情数据库中进行实验,把数据库中的210张图像分成3个部分,每个部分包含10个人,且每个人包含7幅不同表情图像,每次使用其中的一个部分训练各个表情的HMM模型,剩下的两个部分用来测试。循环操作3次,然后对这3次取平均值,得出表情识别率。

(1)粗分类层次实验结果

从表1可以看出,愤怒、厌恶、恐惧、中性、悲伤5种表情不易区分,其中中性表情识别率最低,为80.00%,高兴与惊讶的识别率最高,都达到95.00%,而粗分类层次的整体识别率由于受其他5种表情识别率低的影响,只有86.67%。

(2)细分类层次实验结果

表2为细分类层次下5种表情的识别率。从表中可以看出,中性表情识别率为90.00%,在5种表情中最低。

结合粗分类层次时高兴与惊讶表情95.00%的识别率,那么在细分类层次后,表情的整体识别率达到9400%。如表3所示。

(3)实验分析

结合表1至表3可以看出,经过细分类层次后的5种表情都有不同程度的提升,整体识别率也由86.67%升至94.00%,其中,厌恶与中性表情的识别率提升最大,幅度达到10%。

但是,从实验中也可发现,不管有没有减少分类数目,实验中始终存在误识别。在实验数据库某些人的7种表情变化并不明显,以致算法在识别时出现错误。如图4所示。

5、结论

本文针对目前人脸表情的整体识别率普遍不高的问题,提出了一种新的人脸表情识别方法。理论分析与实验结果表明:

(1)采用双层次分类结构,逐层减少分类数目,能够有效提高表情整体识别率;

(2)对高兴与惊讶表情获得较高的识别率,分别达到95%,比其他类别表情识别率平均高出11.7%左右;对于识别5种表情 (愤怒、厌恶、恐惧、中性和悲伤) 能达到较好的识别结果,其识别率比粗分类特征提取方法下5种表情的识别率平均高出8.7%左右。

(3)与其它方法相比具有更好的整体泛化性能和更高的整体识别率(94.00%)。

摘要:目前, 人脸表情的整体识别率普遍不高, 严重制约了它的实际应用。为了解决这一问题, 提出了一种新的人脸表情识别方法。该方法分为粗分类层次和细分类层次, 在粗分类层次, 通过SVD方法提取表情特征信息, 并结合HMM模型粗识别;在细分类层次, 采用Gabor小波+PCA+LDA的方法提取特征, 并结合HMM模型细识别。理论分析和实验结果表明, 该方法与其它方法相比具有更好的整体泛化性能和更高的整体识别率。

表情识别 第7篇

如今,情感识别研究逐渐成为一个热门的研究领域。不同的情感特征和分类方法层出不穷。而对于单一特征来说,信息量的不足以及抗噪声能力低的问题也逐渐凸显。多模态的情感识别已经成为了一项新的挑战[1,2,3]。

本研究采用密集SIFT特征[4,5]和LargeScale SVM分类器[6,7]进行表情特征的提取和分类,并使用openSMILE工具包[8]提取的1582维声学和统计学特征作为语音特征,运用稀疏表示SR分类器[9]进行语音特征的提取和分类,并对分类结果进行特征层融合。采用eNTERFACE[10]视频语音数据库进行测试,取得了较高的识别结果。

1情感识别

1.1表情识别

eNTERFACE’05数据库[8]包含了5段简短的情绪对话,每个表演者在每段对话中分别带有感情地朗读了一个简短的句子,分别对应6种基本的情绪,即愤怒(An)、厌恶(Di)、恐惧(Fe)、高兴(Ha)、悲伤(Sa)和惊讶(Su)。该数据库总共有42名表演者,包含了1166段视频片段。在我们的实验中,通过对整个数据库视频片段的浏览和甄选,考虑到样本平衡性问题,最终选取其中38名表演者,228个视频片段。我们使用主动表观模型 (AAM)工具包[11,12]对视频图像进行人脸检测和特征点定位,并将视频中人脸部分进行切割,我们在这些面部表情图片中选择其中一帧作为关键帧用以进行表情识别的实验。如图1所给出的就是一组视频的关键帧图片示例。

我们随后采用文献[5]中提出的密集SIFT特征提取方法对切割后的1140个表情样本进行特征提取构造特征矩阵。

我们对eNTERFACE数据库共 进行5折的独立实验,在每一折 中,我们随机 打乱表情 特征顺序,将其分别 划分到训 练样本和 测试样本 中去。对于每一类特征,我们选取其中152个样本作为训练样本,38个样本作为测试样本来进行实验验证。表1给出的是 表情特征 分类实验 的实验结果。

同时,得到每一折的混淆矩阵,如图2所示。

1.2语音情感识别

我们采用了openSMILE工具包来实现语音特征的提取,总计提取了1582维的语音特征,采用稀疏表示SR[9]方法进行语音情感识别。在表情识别的同时进行了语音情感识别,选取152个训练样本, 38个测试样本来进行试验。表2给出的是语音特征分类实验的实验结果。

同时,得到每一折的混淆矩阵,如图3所示。

1.3决策层融合

通过分别计算表情识别和语音情感识别的识别率,我们分别得到了表情识别和语音情感识别的每折混淆矩阵和对应识别率。通过该识别率,我们假设一个加权系数α,则对于每类情感可以得到以下的投票方程:

而其中的δv和δα我们可以通过每一折的混淆矩阵来计算。

2实验结果

我们采取eNTERFACE库来进行多模态的情感识别实验,得到的识别结果如表3所示。

同时表4也给出了eNTERFACE库上的一些对比实验来验证我们的方法。

3结束语

文章基于多模态情感识别,充分利用了表情和语音两种模态的特征信息,利用SIFT特征及lsS- VM分类器对表情进行情感识别和openSMILE工具包和稀疏表示SR分类器对语音进行情感识别, 分别得到了较好的效果。最后,我们采用决策层融合的方式,利用投票的方法对两类特征的分类结果进行融合,在eNTERFACE数据库上的到了较高的识别率。

摘要:由于单一特征的局限性,单一模态的情感识别研究往往由于含有的有效信息量较少或含有的噪声信息过多而导致识别结果与实际情况有着较大的差异。而不同类型的输入特征,相对于单一特征而言,包含着充分的、互补的情感信息。因此,本研究基于eNTERFACE数据库,提取了SIFT特征作为表情特征数据以及使用openSMILE工具包提取的1 582维声学及统计特征作为语音特征数据,分别运用支持向量机SVM和稀疏表示SR方法进行情感识别。最后采用决策层融合的方式,在该数据库上获得了比较好的效果。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【表情识别】相关文章:

建筑表情05-21

课堂表情07-01

表情语言07-30

表情艺术论文06-29

表情艺术论文提纲09-16

有趣的表情(美术)08-05

表情艺术论文范文05-13

表情的真相范文05-21

表情服务目光的运用06-03

可爱的表情包范文06-02

上一篇:助跑—起跳环节下一篇:高铁桥梁墩身施工