基于深度学习的手势识别研究

2022-09-11

手势识别已经开始应用在诸多领域, 如无人机、体感游戏、手语识别等[1,2]。本文的交互系统是由手势分割、手势跟踪和手势识别三部分构成。手势分割是将手势从视频的一帧中分割出来, 是手势识别的第一步。手势跟踪是根据手势的某种特征, 在视频中对手势进行实时定位和跟踪。手势跟踪保证手势目标不丢失, 并且保证实时性。本文选用meanshift的改进版camshift算法。实验采集了复杂背景下的1到10共10种手势, 本文采用LeNet-5网络对手势区域进行手势识别。

一、手势分割

目前, 手势分割方法很多。本文的手势分割方法是对图像进行预处理, 根据肤色建立高斯混合模型, 并结合基于Haar特征的AdaBoost分类器分割手势。

(一) 高斯肤色混合模型

高斯肤色混合模型是一种参数化的肤色分布模型, 原理是借助正态分布近似拟合人体肤色的概率密度分布。通过极大似然估计, 高斯肤色混合模型的参数学习过程中的目标函数被设定为样本在高斯肤色混合模型的最大似然值[3]。

将高斯肤色混合模型对手势图像进行分割, 效果如图1。

(二) 基于模板特征的手势分割

采用基于模板特征的手势分割, 通过大量手势样本提取手势特征, 利用特征训练出分类器, 可以区分出手势区域和非手势区域。本文采用的是基于Haar特征的AdaBoost分类器。

1. Haar特征

Haar特征是一种反映图像的灰度变化, 像素分模块求差值的一种特征。特征分为三类:边缘特征、线性特征、中心特征和对角线特征。用黑白两种矩形框组合成特征模板, 在特征模板内用黑色矩阵像素和减去白色矩阵像素和来表示物体的特征值。Lienhart R.等[4]对基本特征进行扩展, 形成扩展矩形特征。

2. AdaBoost分类器

AdaBoost是一种迭代算法, 其基本原理是针对同一数据集, 训练不同的弱分类器, 然后将弱分类器进行合理的结合, 使其成为一个强分类器。

(三) 基于高斯肤色混合模型和AdaBoost分类器的手势分割

为了提高手势分割准确率, 首先通过高斯肤色混合模型将可能属于人手的区域从图像中分割出来, 然后经过AdaBoost分类器, 确定手势位置。

1. 手势跟踪

手势分割中采用的AdaBoost分类器只能识别特定模板的手势姿态, 受手势姿态形变影响很大。如果把所有手势进行训练, 加大了训练量, 很难保证实时性, 并且准确率会有所影响。为了解决这个问题, 本文采用CamShift算法跟踪目标手势, 对目标形变具有很好的鲁棒性, 并且因为算法简单, 可以实时检测手势位置。CamShift算法能实时监测手势位置, 获取手势区域, 送入神经网络中进行手势识别。

2. 手势识别

本文采用经典的LeNet-5神经网络[5]作为手势识别的识别方法。手势数据集是室内环境下的数字0到9共十种手势, 每种手势图片共2000张。

二、实验结果与分析

本文的实验数据是室内环境下的数字1到10共十种手势。设置最大执行步数为10000, 每步执行的batch数量为32, 设置固定学习率为0.001, 设置二次正则化参数为0.00004。每种手势选取400张图片做测试, 手势识别的准确率如下。

手势分类的平均准确率为98.3%, 其中数字7和数字9的识别率不高, 原因是7和9的手势较复杂, 当手势旋转时, 会出现遮挡, 导致准确率不高。

三、结论

本文研究了一套手势识别的整体流程, 通过肤色和基于Haar特征的AdaBoost分类器进行手势分割, 实现了在复杂环境下获取手势区域, 针对手势的运动和形变的特点, 采用CamShift算法进行手势跟踪, 保证能实时获取手势区域, 最后采用卷积神经网络对手势区域进行分类。

摘要：本文截取视频的一帧, 针对手势肤色的特殊性和手势的易形变性, 通过建立肤色模型和基于haar的AdaBoost分类器, 实现手势分割, 通过CamShift算法实现手势的实时追踪。通过卷积神经网络进行手势识别, 实现对10种常用手势数字的识别, 识别率达到98.3%。

关键词：手势分割,手势跟踪,手势识别,神经网络

参考文献

[1] 孙丽娟, 张立材, 郭彩龙.基于视觉的手势识别技术[J].计算机技术与发展, 2008, 18 (10) :214-216.

[2] 易靖国, 程江华, 库锡树.视觉手势识别综述[J].计算机科学, 2016, 43 (s1) :103-108.

[3] 刘石磊.人机交互中的手势分割及识别关键技术的研究[D].济南:山东大学, 2017.

[4] R Lienhart, J Maydt.An extended set of haar-like features for rapid object detection[C].2002 International Conference on IEEE, 2002, 1:900-903.

[5] CHEN Y N, HAN C C, WANG C T, et al.The application of a convolutional neural network on face and license plate detection[C]//18~ (th) international conference on pattern recognition.Hong Kong, China:IEEE, 2006:552-555.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处