视频识别范文

2024-06-07

视频识别范文(精选10篇)

视频识别 第1篇

基于内容的新闻视频识别实际上是一个将视频分割和分类结合在一起的过程。换句话说, 要在连续的视频流中定位出新闻节目。研究人员在视频分割和视频分类上都分别做了大量工作。在影片语义分析领域, Rasheed等人[2]结合影片的特点, 只用4个视觉特征 (平均镜头长度、颜色差异、运动内容和灯光) 将电影分为悲剧、动作、戏剧和恐怖片几种类型, 达到影片分类的目的。Liu等人[3]从音频中提取一系列基于统计的时频特征, 利用神经网络对报道、体育和广告节目进行了分类。梁刘红等人[4]通过在多天视频内寻找重复出现的视频片断, 自动提取出节目的片头和片尾, 为特定电视频道建立面向某一时间段的视觉节目模板, 从而完成节目的分割。王金桥等人[5]提出了一种多模态特征融合的视频节目分割方法, 该方法通过视觉、音频和文字信息来发现电视节目边界处的时空特性, 从而利用支持向量机建立模型, 通过对镜头检测产生的候选边界点进行二元分类, 实现了节目分割。然而这些方法都是针对广泛的节目类型来设计的, 并没有考虑到新闻视频与其他节目类型在结构上的差异, 而且传统的节目分类方法都是在底层特征提取的基础上建立分类器模型完成识别, 不可避免地存在着计算复杂度高、速度慢的缺点, 因此, 简单地将视频分割和视频分类串接在一起不能满足实际应用要求。

王金桥等人[5]进一步指出可以利用节目边界处的视音频特征来描述特定节目, 以便于快速浏览和定位节目。受此启发, 可以通过分析和提取新闻视频在节目边界处的结构特征, 找出新闻视频与其他视频的结构差异, 从而进行新闻视频的识别。因此, 在深入分析新闻视频结构特点的基础上, 本文提出了一种基于音视模板匹配的新闻视频识别方法。该方法综合考虑了新闻视频中的主题音乐和主持人镜头特征, 由它们分别构成音频模板和视觉模板, 结合分层次的模板匹配方法, 有效地实现了新闻视频识别。

1 基于音视模板匹配的新闻视频识别

通过对各种类型的新闻节目进行大量的分析、统计, 发现提取主题音乐和主持人镜头的特征是充分刻画新闻视频和非新闻视频差异的有效途径。考虑到对于特定的频道, 新闻节目的播出时间是固定的, 如果检测到节目的开始, 就可以依据播出时间长度的先验知识开始记录, 直到节目结束。因此, 从实用性出发, 本文综合利用主题音乐和主持人镜头先后出现的结构特性, 提出了一种基于音视模板匹配的新闻视频识别方法。

1.1 算法流程

首先分别离线提取主题音乐模板和主持人镜头模板, 其中主题音乐模板由基于MFCC参数的段级特征构成, 主持人镜头模板由扩展人脸区域的分块HSV颜色直方图构成;其次, 对电视视频流进行视音频分离, 先进行主题音乐模板匹配;再次, 由匹配通过的候选时间点定位到相应的分割好的视频镜头, 利用主持人镜头模板对镜头中检测出的扩展人脸区域进行匹配, 根据匹配结果判断主持人镜头是否出现, 如果主持人镜头出现, 则意味着新闻视频开始, 可以开始记录直到结束, 完成新闻视频识别。方法的原理框图如图1所示。

1.2 主题音乐模板建立与匹配

音频模板即为主题音乐模板。在音频模板匹配中, 所选取的特征应该能够充分刻画音频的重要分类特性, 对环境的改变具有鲁棒性。

基于频谱的特征有较强的区分语音和音乐信号的能力, 所以, 选用Mel频率倒谱系数作为音频帧的特征[6,7,8], 首先以帧为单位计算12阶的MFCC参数, 帧长20 ms, 帧移10 ms, 然后计算1 s音频段内MFCC参数的均值作为段级特征。长度为30 min的语音、音乐和背景音的12维段级特征参数中的第二维的概率分布如图2所示。

第二维MFCC参数均值对语音、音乐和环境背景音有较好的区分性, 本文也对其他维MFCC参数均值在3种音频下的概率分布做了统计, 结果表明MFCC参数均值对这3类音频的区分性良好。

主题音乐播放的时间是恒定的, 假定为N秒, 则主题音乐模板由N个片级特征依照时间顺序排列构成, 表示为T= (t1, t2, …, tN) , 其中ti为第i段段级特征, 1≤i≤N。

由于主题音乐的播放速度通常都是恒定的, 因此在模板匹配上不需要应用复杂的动态匹配方法。这种情况下, 计算线性相关性是合适的。这在后面的实验中得到了证明。令T= (t1, t2, …, tN) 是目标主题音乐模板, O= (o1, o2, …, oM) 为视频流中提取的段级特征序列。

其中ti和oi是从相应的第i秒中提取的特征, M和N是2个序列的段数。需要说明的是, 视频流的长度理论上是无限的, 这里用M来表示长度是为了描述的需要, 可以认为M为无限大。让主题音乐模板在视频流的段级特征序列上滑动, 滑动步长为1 s, 段级特征序列和模板之间第n段的相似度定义为

式中:是模板特征矢量的均值;是段级特征序列on, on+1, …, on+N的均值;‖*‖代表范数。S (n) 的局部极大值点若大于设定的门限值α, 则判定它为主题音乐的起始点。一旦定位了主题音乐, 主持人镜头便可通过固定长度时间定位来确定。

1.3 主持人镜头模板建立与匹配

视觉模板即为主持人镜头模板, 可以提取主持人的扩展人脸区域 (Extended Face Region, EFR) 作为通用模板。EFR的提取和匹配是建立在镜头检测的基础上, 对镜头的关键帧进行处理。该算法的详细过程见文献[9]。

2 实验结果与性能分析

为了验证方法的有效性, 本文收集了来自CCTV1、CCTV2、英国BBC电视台和台湾东森电视台的电视节目。考虑到本文的新闻视频识别方法实际上是检测新闻视频的开始位置, 因此新闻节目并不完整, 通常只包含了能保证检测开始位置的部分, 同时把属于同一电视台的电视节目人工拼接在一起, 构成该电视台的测试视频流。这些数据来自不同的时间, 共计40 h, 涵盖了新闻节目、电视剧、音乐、动画等多种节目类型, 其中新闻节目开始位置为56个。在测试前人工标注出了样本中所有新闻节目的开始位置, 作为方法检测结果的标准参照。

按照第1节中的方法流程, 对不同电视台的新闻节目分别建立了音视频模板, 然后进行分级模板匹配。通过实验表明, 门限值α为0.9, β为0.1。

为了进行比较, 本节对以上实验数据分别采用基于主题音乐的模板匹配方法 (简称音频方法) [10]、基于主持人镜头的模板匹配方法 (简称视觉方法) [4]和本文提出的方法处理, 进行新闻视频识别。采用常用的查准率 (准确率) 和查全率 (召回率) 两个指标来评估新闻视频识别算法的性能。3种方法对各电视台视频流的检测结果如表1所示, 同时图3给出了3种方法的平均查全率和查准率。

从图3可知, 本文方法的平均查全率达到了96.85%, 其他两种方法的平均查全率略高于本文方法, 分别为98.63%和98.23%, 这是由于新闻视频都具有主题音乐和主持人镜头这两个特性, 并且在主题音乐之后出现的主持人镜头都是正坐在演播室内, 没有过多背景的干扰, 使得查全率很高。由于本文方法是其他两种方法的结合, 不可避免地综合了其他两种方法的漏检情况, 但是本文方法在平均查准率上达到了95.6%, 与音频方法和视觉方法相比分别提高了19.5%和9.1%, 效果明显。表1给出了针对不同电视台的视频节目的识别性能对比, 音频方法由于仅利用主题音乐模板进行匹配, 识别速度快, 但是误检增多, 而视觉方法虽然在查准率上优于音频方法, 但对于非新闻视频中出现的人脸镜头容易发生误检, 同时由于需要对每个镜头进行人脸检测, 以及后续的主持人镜头模板匹配, 导致识别速度慢。本文方法将音频方法和视觉方法综合在一起进行识别, 充分利用了两者的优点, 突出了新闻视频与非新闻视频的区别, 对于各类型电视节目均取得了不错的效果, 具有较好的实用价值。

3 小结

面向电视视频流的新闻视频识别解决了新闻视频筛选的数据源问题, 对于其实用化具有重要意义。传统的研究方法都集中在视频流的结构化上, 对于新闻视频这种特定类型的节目识别少有研究。本文在充分研究新闻视频与其他类型节目结构差异的基础上, 提出了一种基于音视模板匹配的新闻视频识别方法。实验结果表明, 该方法计算效率高、简单易操作, 获得了96.8%的查全率和95.6%的查准率, 具有一定的实用价值。

参考文献

[1]田破荒, 李弼程, 彭天强.一种有效的视频文字提取方法[J].电视技术, 2007, 31 (10) :87-89.

[2]RASHEED Z, SHEIKH Y, SHAH M.On the use of computable features for film classification[J].IEEE Transactions on Circuits and Systems for Video Technology, 2005, 15 (1) :52-64.

[3]LIU Zhu, HUANG Jincheng, WANG Yao.Classification of TV programs based on audio information using hidden Markov model[C]//Proc.IEEE Signal Processing Society Workshop on Multimedia Signal Processing.[S.l.]:IEEE Press, 1998:27-32.

[4]梁刘红, 富亮, 薛向阳.电视节目自动分割算法[J].计算机研究与发展, 2004, 41 (9) :1514-1520.

[5]WANG Jinqiao, DUAN Lingyu, LIU Qingshan, et al.A multimodal scheme for program segmentation and representation in broadcast video stream[J].IEEE Transactions on Multimedia, 2008, 10 (3) :393-408.

[6]张晶, 范明, 冯文全, 等.基于MFCC参数的说话人特征提取算法的改进[J].电声技术, 2009, 33 (9) :61-64.

[7]陈红红, 刘加.基于从MLER和GMM的语音音乐分类[J].电声技术, 2011, 35 (10) :47-50.

[8]万书婷, 曾向阳, 王强.混响环境中的-听语音识别[J].电声技术, 2012, 36 (12) :42-45.

[9]赵锞锞, 彭天强, 李弼程.新闻视频支持人镜头检测方法[J].计算机工程, 2008 (19) :239-241.

视频识别 第2篇

董桂菊,徐杰

(东北农业大学电气与信息学院,哈尔滨150030)

摘要:文章介绍了基于视频的车辆测速管理系统,并提出了一种车辆的测速方法。车辆测速管理是智能交通系统(ITS)中的一个重要组成部分,它集牌照识别、测速检测、流量监控、费用收取等多项功能于一体,主要用于对高速公路超速违章车辆的监控。在车辆的测速原理中,指出从相邻视频帧图像中获取车辆的“像速度”,并间接获取车辆实际速度的方法。从而为高速公路测速管理系统的关键点提出了一种切实可行的解决办法。

关键词:高速公路;视频;测速管理系统;测速

中图分类号:文献标识码:A文章编号:

0引言

国家发展离不开道路建设,伴随着高速公路的大规模建设,车辆的超速现象也频繁发生。为了查处治理违规车辆,车辆的测速成为交管部门越来越重视的问题。而基于高速公路的智能管理,机动车辆的测速管理也是其中一个重要的组成【1】。车辆测速技术简述

目前,智能交通系统中对车辆进行测速主要有线圈测速、激光测速、雷达测速、视频测速等几种方式。线圈测速一般采用埋设式,车辆通过线圈,会引起线圈磁场的变化,输出触发信号,因此可以在公路路面一定距离设置两个线圈,检测器通过检测车辆通过两个线圈的时间差计算出车辆的速度,但线圈在安装时必须直接埋入车道,使路面受损,并且在安装过程中会阻碍交通,线圈在地下也易受到冰冻、路基下沉等外界因素影响。当车流量过大时,检测精度也会大大降低。激光测速的工作原理建立在光波测距的基础上,利用多次测得的距离差与时间差的比,测得车辆的速度,与地感线圈有着类似的计算方式。

雷达测速的工作原理是利用多普勒效应,当发射方与接收方之间有相对径向运动时,接收到的信号频率就会放生变化,利用这种频移的特点计算车辆的行驶速度。但雷达测速系统和激光测速系统对于测量角度都有很高的要求,测速系统需正对车辆运动方向,测量偏差角要很小,有一定局限性。不带车牌识别的雷达测速系统对违章车辆处罚时由于缺少证据,所以不太实用。人们为解决这个问题,利用高速存储的数码相机采集车辆视频图像,对车牌进行识别,但此系统价格昂贵。此系统测速准确、速度快,可移动测速等方面优点,得到普遍应用,但成本较高,不能用于多车测速,抗电子干扰能力较弱。

视频测速系统原理是利用图像中车辆的二维位置以及预先测定的一系列参数从而确定车辆的实际三维位置,在一个固定时间间隔内拍摄两幅图像,就可以根据两幅图像得来的车辆的实际三维位置确定这个时间段内的位移,从而得出车辆的行驶速度。在此测速方法中,主要需解决的问题是从图像序列中获取车辆的位移,即找到两帧图像中车辆位置的匹配关系。其优点是系统结构简单、稳定性强、成本低,抗电子干扰,可用于移动和固定场合,不仅能够测速,而且能够利用视频对车辆进行监控。缺点是测速精度低,并且需预先对测速系统中参数(如摄像机到被测测量间的距离)进行测量。

由于视频处理的独特优势,在交通智能管理系统中已被广泛使用,并成为现代智能交通的发展方向和趋势。本文通过对图像序列中车尾位置识别,进行图像匹配,获得车辆在图像中移动的像素差,把相机坐标转换为世界坐标,能够在实时环境下对车辆进行测速。

2视频测速管理系统介绍

为了满足现代化高速公路管理的需要,实现系统低成本、易操作、便管理的要求、我们将视频测速管理系统划分为视频测速系统和收费系统两个方面。

2.1视频测速系统

视频测速系统主要有监控单元、数据传输单元、中心管理单元三部分组成。前段监控单元

包括闪关灯、摄像机以及前段管理工控机等设备,负责采集车辆信息;数据传输单元主要包括CDMA传输模块,负责前段监控单元到中心管理单元的信息传输;中心管理单元主要包括系统的管理软件及其存储设备,负责对传回的数据进行处理并将其存入数据库,从而实现了对海量信息的存储和管理,便于以后车辆信息的汇总与调取。

测速系统结构图

当车辆驶入监控区域,前端监控单元采集车辆通过的时间、速度等信息,并存入本机数据库中,当检测到车辆超速时,将启动抓拍模块,对违法车辆进行拍摄,并将违章车辆违章时间、违 章地点、车牌号码和车牌图像存入工业控制计算机的本机数据库中。

测速流程图

前端监控单元获取的车辆行驶记录以及违法车辆的图片通过CDMA无线网络发送给中心服务器进行保存。CDMA无线网络单元作为该系统的自动传输单元,当网络堵塞或出现故障时,自动传输单元循环等待网络的恢复,当网络恢复后,自动传输单元自动启动数据传输。

中心服务器负责处理前端传回的车辆记录和图片信息。服务器中的车牌识别模块首先识别违 法车辆图片中的车牌,然后由图片处理模块采用特定技术附加车辆相应时间、相应地点、车辆行驶速度,并将该车辆违章信息发送给终端服务器,作为以后交警执法的依据。

测速系统的测速流程如图所示。2.2测速原理

图1视频中截取的两帧图像

(a)t0时刻

(b)t1时刻

监控摄像机

t0

t

1测速原理图

本系统使用视频检测车辆车速,依据以下公式:vd/t

(d1d0)/(t1t0)(1)

在此系统中,通过视频信号的固定帧间时间可直接得到t,再通过其他方法间接的得到

d,此时,我们采用公式:

vd/t

(d1d0)/(t1t0)

f(s0))/(t1t0)(2)

(f(s1)

f(s)是一个表示路程的函数,s值表示位置,假设知道函数f(s)的表达式,则通过f(s),有s1、s0计算得到d1、d0的值,相减即可得到d,实际测量中可得到t`1和t0的值,从而可有(2)式计算出v值。

图1是从监控视频信号中连续截取的两帧图像。由图像可知,摄像机的拍摄是由远及近拍摄,车辆与摄像机为正对方向。

可以找到车辆在两帧图像中的对应点,由于摄像机是固定不动的,这样就具有了对比性,对应点分别对应到图像中s1(t1时刻帧图像)和s0(t0时刻帧图像)位置,相减即可得到对应点t(t1t0)时刻在图像中移动的像素距离s(s1s0),从而得到车辆在图像中的移动速度,单位为“像素/秒”。

然而,我们要获得的是车辆的行驶速度,速度单位应该是“公里/小时”,因此,我们必须找到s与实际距离d的关系。

考虑到摄像机安装的安全性和效果较好的视觉俯仰角,一般不小于60,我们选取60,此时的视距c和检测点距摄像机的距离d一般比较大,当t很小时,d相对于d非常小,因此可以忽略图中的变化量。

假设视频信号中截取的图像高宽分别为1920像素和1080像素,车辆监控视频视野宽刚好为一个车道宽为3.5米,如图所示:

车牌在两帧图像中移动的位图

设视野范围内可以看到xm路面长度,也就是图像高度所对应的路面长度为xm,此时有,19201080

 35xcos

s1080

 dx

x10803.51s因此,ds 10801920cos1080

此时,t为获取的两帧图像时间差,s为车辆在两幅图像的像素距离,而由公式(1),即可得出车辆的移动速度v。

而此刻我们不考虑视觉透视效果,则有,3.总结

文章的最终目的是对高速公路车辆速度的监控及其测量,设计了高速公路车速监控系统,并提出了一种车速的测量方法,通过与图像识别技术相结合,进行模拟实验。实验结果表明,此测速方法已初步实现了视频测速的基本要求。

参考文献:

[1]袁河洋.基于视频的车辆速度检测方法研究[D].大连:大连海事大学, 2013.6

[2]陈媛媛, 柴治.基于视频检测的车辆测速方法[J].现代电子技术, 2009, 23: 185-187.[3]袁丁.基于视频和DSP的车辆识别测速系统[D].浙江:浙江大学, 2004.2[4]王命延, 朱明峰, 王昊.机动车视频测速中关键技术的研究与实现[J].计算机工程, 2006, 32(5): 198-200.[5]张重德, 张崇薇.一种提高视频车速检测精度的方法[J].上海交通大学学报, 2010, 44(10): 1440-1442.[6]童剑军, 邹明福.基于监控视频图像的车辆测速[J].中国图像图形学报, 2005, 10(2): 192-193.Highway Vehicle Speed Measurement System Based on Video

Dong Guiju,Xu Jie

(College of Engineering, Northeast Agricultural University, Haerbin 150030, China)

Abstract:This article describes a highway vehicle speed measurement system based on video, and

proposed a method for vehicle speed.Vehicle speed management plays an important role in Intelligent Transportation System(ITS), It contains license plate recognition、speed detection、traffic monitoring、fees charged and so on many functions in one body,Mainly used for vehicle

视频监控中涉案车辆特征识别与查证 第3篇

关键词:视频监控;涉案车辆;特征识别

中图分类号:G642 文献标识码:B 文章编号:1002-7661(2014)18-007-02

视频监控对于当前案件侦查工作的支撑作用越来越明显,对视频监控技术的要求也越来越高。但由于视频监控质量、光照条件、安装角度以及车速快等问题,使得案发前、案时或者案后通过视频监控获取的车辆画面并不是非常清晰,加之犯罪嫌疑人为了逃避打击往往会采取盗抢车辆作案,遮挡车牌照、换挂牌照甚至不挂牌照等反侦查行为,使得本就难以查证的涉案车辆更加难以查询,这就对侦查人员的车辆特征识别和查证能力提出了更高的要求,据此本文探讨了视频图像中涉案车辆特征识别和在相关场所和区域进行辨认和查证等问题。

一、涉案车辆特征的种类

车辆特征是指能够将不同车辆相互区别的一些特点和标记,涉案车辆特征主要包括以下几种种类:

1、车型

确定车型对缩小侦查范围,明确摸排方向等都具有重要意义。在市场上较为常见的主要有欧系、美系、日系、德系、法系等车型,如果发现涉案车辆的车型较新,此类车型在市面上出现较少,那么对缩小侦查范围,节省警力资源都有极大帮助。每个车型系列之下又分为许多不同的款式,就算是同一个系列在每个国家发行的名字都有所不同,而且还会针对该销售地相对地调整车型的外形、配置。对车型的判断主要依据不同车型外部特征的差异进行,例如车辆铭牌、尾翼、车门、车窗、颜色、尾灯形状、刹车灯位置等。

2、车牌照

车牌是车辆的外在标识,具有唯一性、合法性,是区分不同车辆的重要依据。如果在视频图像中发现涉案车辆的车牌号码,就可以将该号码输入到车辆信息管理系统、交通违章信息系统、道路收费信息系统等进行查询,最大程度地获取涉案车辆特征信息,追踪查证,极有可能以点带面引出以往积压案件或陷入僵局案件的新线索、新证据。

针对视频监控图像中车牌号码可能比较模糊或者反映得不完整的这一特点,就需要侦查员在进行图像清晰化处理的同时,根据已知部分号码进行模糊查询,并与涉案车辆特征进行碰撞。目前,有不少利用车辆作案的犯罪嫌疑人也意识到了车牌的暴露性,所以他们在作案时一般都会对车牌进行伪装、遮掩、套牌、甚至不挂牌照。

3、个体特征

在侦查办案过程中,有时为了获取线索和证据,避免打草惊蛇,需要对嫌疑人、嫌疑物品、嫌疑地点进行持续性地监控追踪,但由于犯罪嫌疑人反侦查意识较强以及画面不清晰等原因,无法通过车型和车牌照来追踪犯罪嫌疑人,那么就要注意挖掘涉案车辆的一些显著个体特征作为追踪的依据,确定下步行动计划。

在车辆个体特征分析中,我们一般首先根据车辆的大特征来识别车辆种类,然后再根据其细节特征来识别个体车辆。对车辆的个体识别主要依据车辆上文字的喷涂、车身不干胶装饰彩条、车内饰品悬挂、摆放物品、香水瓶、牌照托架、车尾防静电条、车前挡风玻璃上年检标志、缴费标志等的粘贴位置、后挡风玻璃上的广告式样及粘贴位置等进行。

二、涉案车辆特征识别

对涉案车辆进行追踪和调查,在实际办案当中大多以车牌为媒,通过车牌这一记载着大量车辆信息的载体,查获嫌疑车辆,在此过程当中所运用的方式方法和技术手段便成了能否顺利抓获嫌疑人,破获案件的保障。

1、人工识别

观察车牌外形,从形、色、字的角度进行基本判断。正规的车牌经过高科技的处理,并采用一次成型技术,给人的视觉感受很好。而伪造的“套牌”观察号牌形、色、字,在阳光照射下颜色偏红或偏黄,字体存在整体较瘦或偏胖等“硬伤”, 或在拐弯处有异常,而且字体周围会发虚,轮廓不像真号牌那么清晰,真车牌上都是特殊的字体,字间距也有严格的规定,假牌照的字出自电脑,字体偏瘦,大小、结构都和真牌照有很大的区别,只要细加端详就能发现。

2、智能识别

车辆的智能识别是图像识别技术在智能交通领域应用之一,可以自动对车辆进行登记、验证、监视、报警,这些智能识别系统均建立相应的牌照数据库,在入口将车辆的有效身份信息储存在通行卡内,在出口进行核实,同时提供图像的抓拍及字符叠加功能,对通行的车辆进行统计管理,可以较具体地查询某一时间段内的车辆通行情况,并对车流量进行分类储存管理。由于储存有大量车辆信息,极大地提升了识别速度,可以为防盗抢车辆、套牌车辆,非法抢劫车辆等犯罪破案提供有力可靠的破案信息。

3、侦查实验识别

侦查实验识别主要适用的范围为确定车型、车颜色、车的一些个体特征、判断犯罪嫌疑人的行为等。例如在某交通肇事案中,监控中肇事大货车加速后倒碾压被害人,但司机力称不知车后方有人。在这起案件当中,视频监控并不能反映出嫌疑人的视线情况以及心理状态。警方在同时同地相似环境下安排了与被害人身高、服装均差不多的两名人员进行了现场模拟重演。侦查实验的结论是:大货车驾驶员加速倒车前,从车内后视镜可以清晰看见模拟人员活动情况。可以证明犯罪嫌疑人应该能够看到被害人活动情况,断定嫌疑人的倒车行为是故意杀人。

三、涉案车辆图像的查证

1、涉案车辆图像查证范围

涉案车辆图像查证范围的划定,对于处理案情来说非常的重要,只有准确地圈划出涉案车辆的的活动范围,才能保证涉案车辆图像查证工作的正常进行。

由于涉案车辆在作案时一般会针对车牌进行伪装,这就需要通过车辆的种类特征和车辆的个体特征,甚至伪装车牌本身的特征来进行分析。如果涉案车辆所悬挂的不同假车牌都指向同一区域,这也说明这个区域与犯罪嫌疑人有着密切的关系,要么是其常住地,要么是其经常活动的窝点。根据人的心理,即使在使用假车牌时,为了蒙蔽交警,避免检查时露馅,犯罪嫌疑人一般也会将假车牌归属地选择在自己熟悉的区域。

2、涉案车辆图像查证的方法

车辆的流动性大,运行范围广,机动性强,能快速地进入和逃离现场,视频图像中也隐含着大量有关涉案车辆的信息,在如此大量的信息中快速找到有关涉案车辆的信息便成为了图像查证工作的关键。

(1)车辆关联查证

①信息库关联

对于已经注册登记的机动车,到车辆管理部门上网查询,通过车辆登记档案,以车找人发现犯罪嫌疑人。另外,我们还应该及时查询车辆违章信息库,嫌疑车辆在运行过程中都可能会因为违章而被交通监控视频所记录。通过交通违章信息可以还原涉案车辆的运行轨迹。如果有处理违章的记录,还可以发现犯罪嫌疑人或者相关人员的身份信息,从而大大加快案件的侦破过程。

②时空关联

车辆管理部门所留存的信息毕竟有限,在对可疑车辆进行查证时,我们不能仅仅局限于车辆登记机关和道路交通监控,还应对车辆经常可能出没的大型商场、宾馆、娱乐场所、加油站、高速公路休息区等重点区域进行查证,在一天当中的人流车流高峰时间内重点监控核查,进行实时统计,多层级联网并在采集大量数据后能对此进行事前预测。

③行业关联

由于现在车辆种类、型号繁多,所以侦查人员往往也不能确定具体涉案车辆的种类和型号,特别是在车辆视频图像不好的情况下更是如此。为了查明具体涉案车辆的种类,我们可以查询专门的销售商和汽车修理人员,对于车的发动机号和识别代码被凿改、刻画、挖补、焊接,导致无法识别的车辆,可通过车辆主要零部件编号向机动车制造厂或进口车驻中国代表处进行查询来确定该车的原始号码,还可到专业修理厂通过电子诊断仪检测出该车的原始信息。

(2)VIN代码校验系统查证

车辆识别代号(VIN)是车辆制造厂为了识别某一辆车,为该车制定的一组字码,共17位,其中第九位是校验码,是其他十六位字码确定后计算得出的,犯罪分子在不懂规则的情况下,改动任何一位字码都可以通过校验码判断出来。

一般情况下,车辆在发动机附着件上或者变速箱上都贴有包含发动机号或VIN的标签、条码;在挡风玻璃下面大多数都有VIN条码(美国生产的车在车身多处贴有VIN条码);在左前门门框处、车身前部一般都有整车铭牌,记载着车辆相关信息,以此作为旁证,与原档留存的两号拓印膜比对,重点比对字体形状、大小和间距是否相符,确认车辆两号是否有改动的情况,排查嫌疑车。

四、涉案车辆特征识别与查证存在的问题

视频监控涉案车辆的图像查证给侦查破案带来帮助的同时,也存在着很多问题。如果不解决好这些存在的问题,视频监控中涉案车辆图像查证将不会达到满意的效果。

1、涉案车辆特征识别存在的问题

现行车辆特征识别并不尽如人意,难题主要集中在牌照方面,具体有以下原因。

(1)牌照自身影响

车辆牌照是由汉字、字母和数字组成,颜色又含有底色和字符颜色,我国车辆牌照仅底色就有蓝、黄、黑、白等多种颜色,字符颜色也有黑、红、白等多种颜色,差异并不明显;车辆牌照格式缺少统一标准,我国根据不同车辆、车型、用途,规定了多种车辆牌照格式(例如军车、警车、普通车等),并且规范悬挂位置不唯一;此外,车辆牌照附近环境干扰较多(例如复杂的车体外形、挡车器、铆钉等)也在无形中加大着对牌照的识别难度。

(2)光线影响

在自然环境下,光线的剧烈变化是影响车辆牌照图像质量的主要因素。白天,强烈的日光直接射入监控摄像机的镜头,或与车辆牌照形成定向反射;夜晚,车辆行驶中开启车灯以及外部照明灯光对车辆牌照区域形成干扰,都会造成监控摄像机无法准确拍摄。

2、涉案车辆图像查证存在的问题

(1)管理体制影响

由于缺乏一套完善统一的查询比对系统,各地车辆管理部门和交警部门大都使用当地的信息库,在出现了跨区域、跨时间的案件时,各地之间信息不能够及时传达,各自为战,在查询时耗费人力物力,也给犯罪分子留下了可钻的空子。在信息关联过程中,涉及到的商场、旅店、维修厂、销售点更是五花八门,难以形成有效的管理,信息的留存时间、准确性等都难以得到有效的保证。

(2)技术设备影响

涉案车辆信息的图像检材主要是由监控摄像机采集的,监控摄像机的排布位置、安装高度、取景范围、成像质量、信道噪声以及摄像机的快门速度、光圈大小、信号增益等调节功能与现场环境的适应性均对车辆的图像质量产生较大的影响,相对落后的现场监控模式和监控系统成为涉案车辆查证有效实施的瓶颈。

五、结语

网络视频流识别技术研究 第4篇

在互联网多媒体技术中, 网络视频流主要包括 P2P视频流与 Web 视频流两种形式, P2P 视频流是在 P2P 架构上提供视频服务;Web 视频流失在 Web 网站的 C/S架构上提供视频服务。 目前, 基于 P2P 架构上视频服务有 我 们 熟 知 的 QQLive、PPS 影 音 、QVOD 等 ; 而 基 于Web 架构上的视频服务有我们常见的 56 网 、搜 狐视频 、爱奇艺等。 在网络视频服务越来越广大, 越来越流行后, 网络视频流数量增大, 网络压力也同时增大, 网络视频服务的质量受到了严重的考验, 因此, 本文对网络视频流识别技术进行研究, 对 P2P 视频流与 Web 视频流进行分析, 分别论述二者的视频流识别方式, 以助于提高网络视频服务质量。

2 网络视频流通信方式

2.1 P2P 视频流通信方式

P2P 视 频流是发生在服务器与用户端之间的通信 , 首先用户对网络通信进行检测, 确认网络通信正常, 用户向服务器发送网络请求, 由服务器判断请求内容, 并返回请求相应和相匹配的网络节点列表, 再由用户发送数据服务请求, 建立用户与服务器之间的数据传输通道, 进行视频服务。 P2P 视频通信方式如图 1 所示。

当用户想要观看某一视频时, 通过 P2P 视频通信方式向同一网络服务器上的多个邻节点发送资源探测请求, 这些节点返回拥有资源文件的列表, 用户再向拥有资源的邻节点请求下载, 并在本地缓存, 进行播放。 视频数据的传输单位是块 (Chunk) , 网络将较大的视频文件切割成众多很小的数据块, 每个块都含有一部分的媒体数据和一个播放序号, 播放软件将这些媒体块按序号顺序组合成可播放的视频文件播放。 在网络上, 源源不断的媒体块从各个邻节点到达客户端并组合播放, 从而保证播放的连续性。

2.2 Web 视频通信方式

Web 视频通信方式是将视频文件储存在 Web 站 点上, 用户可根据个人需要在 Web 用户端网页上获取视频文件, Web 的核心是应用层传输协议。客户端程序和服务器程序是 HTTP 协议的两个程序实现组成部分, 它们分别运行在客户端和服务器系统中, 并通过 HTTP 报文进行会话。 Web 视频流通信包括客户端与主服务器的通信及与视频存放服务器的通信。 主服务器一般是网页超链接指向的服务器, 它的作用是存放 Web 页及 Web 对象寻址, 这里面包含了视频对象的实际地址。 当客户端播放器获得视频地址, 将显示播放按钮为可用, 用户如果点击播放按钮, 播放器将与视频存放服务器进行连接, 然后在顺序取得视频流数据的同时对视频进行播放。

3 网络视频流识别方法

3.1 P2P 视频流识别方法

P2P 视频流识别主要识别视频的关联信息包 、参数数据包和视频首发包。

视频关联信息包是识别具有特征字段的关联信息请求报文, 然后提取请求报文的源 IP 和源端口号作为匹配字段, 与响应数据包的目的 IP 和目的端口号进行匹配, 如果匹配成功就表示该数据包就是待识别的关联信息数据包。

参数数据包的识别的类型有两种, 一种是使用特征字与请求报文进行匹配, 提取匹配成功数据包的源 IP和源端口号作为参数包的匹配特征字之一;然后使用上一步提取的 IP/port 与随后接收到的响应数据包的目的IP 和目的端口号进行匹配 , 匹配成功后还需要进行第三步的匹配工作;对上一步匹配成功的数据包, 使用正则匹配方法与特征字进行匹配, 如果匹配成功, 则该数据包就是参数包。 另一种是首先使用特征字与请求报文进行匹配, 提取匹配成功的数据包的源 IP 和源端口号作为参数包的匹配特征字之一;使用上一步提取的 IP/port与随后接收到的响应包进行匹配, 如果匹配成功, 就进入第三步的匹配工作;使用正则匹配的方法将数据包与特征字进行匹配, 如果匹配成功, 则将该数据包作为参数包进行缓存。

视频首包的识别为由于采用 UDP 协议及 P2P 的特殊传输机制, 使得 P2P 视频流均会在应用层出现特征码。其原因也许是:UDP 包并没有序号, 接受方需要有一个标识来识别这是一个有效包。 另外, P2P 的分布机制并不支持应用层特征的经常性动态变化。 因此, 通过抓包分析, 对于 UDP 传输方式下的 P2P 视频流, 在应用层数据部分可以总结出识别特征码。

3.2 Web 视频流识别方法

Web 视频分为两类 , 一类为专业视频提供商 ;一类为以视频为辅助的门户类提供商, 这类视频不是页面的主要部分, 它是页面的附加信息, 比如一段新闻附加一段采访视频等。

专业视频网站 Web 关联包识别首先识别包含关联信息的请求数据包。 使用“shtml”或“html”在请求包的Get 字 段进行匹配 , 如果 “shtml“匹 配成功 , 则提取该请求包的源 IP 和源端口号作为关联包的匹配特征字写入用户流表;如果“html”匹配成功, 则查询请求包的 host字段和 Referer 字段, 当 host 字段为四种视频的服务器地址, 并且 Referer 字段的后缀不是“.html”时, 提取该请求包的源 IP 和源端口号作为关联包的匹配特征字写入用户流表。

以视频为辅助说明的 Web 视频关联包识别首先使用 Content-Type 字段关键字与响应报文进行匹配;如果匹配失败, 则对数据包不做处理。 如果第一步匹配成功, 使用 Content-Encoding 字段关键字进行匹配; 如果匹配失败, 则对数据包不做处理。 如果第二步匹配成功, 则查找 Content-Length 字段。 分三种情况:查找失败;查找成功, 并且 Content-Length 给出的数字小于 10000;查找成功, 并且 Content-Length 给出的数字大于 10000。 如果是第二种情况, 对数据包不做处理;如果是第一种和第三种情况, 则缓存数据包, 并且获取数据包的目的 IP 和目的 port 作 为 后 续 数 据 包 的 匹 配 字 段 。 将 10000 作 为Content-Length 字 段的阀值, 对于门户网比较合适 ;但是对于门户网中的纯视频页面不太合适, Web 视频首包包识别是视频文件第一个数据包的 Content-Type 实体头特征字是否匹配。 当 HTTP 响应报文到来时, 对特征字进行匹配, 如果是视频文件首包则写入视频流表并存储数据包, 以待参数识别模块使用, 由于 Content-Type 实体头中标示有数据类型信息, 故在 web 视频识别中我们首先通过固定位置匹配特征字“HTTP/1.x200OK”来确认是否是 HTTP 响应报文, 再采用 Content-Type 字段后的数据类型信息进行视频首包的识别。

目前, 通过抓包分析, Content-Type 字段包括以下数据 类 型 特 征 , 我 们 将 采 用 它 们 做 为 识 别 标 签 :video/mpeg、video/mp4、video/f4v、video/flv、video/x-flv、application/octet-streamflv-application/octet-stream 其 中 , video/mp4 和 video/mpeg 特 征主要用于传输 MP4 视 频流, 其他特征主要用于传输 FLV 视频流。 需要说明的是, 对于其中的 octet-stream 类型, 可能代表一种视频流, 也可能代表一个 Web 文件下载, 对于这种特殊类型, 在第一种情况下, 我们的识别方法是附加一步处理:在 HTTP应答数据后匹配“FLV”或“ftyp” (mp4) 特征。

对于这种情况, 可以直接针对所有数据包进行识别, 在视频数据包的应用层开始部分匹配 FLV 视频文件头部 FLV 特征字段 (0x464c56) ;在视频数据包的应用层偏 移 四 个 字 节 匹 配 MP4 视 频 文 件 ftyp 特 征 字 段 (0x66747970) 。

4 结束语

本文对当今网络上广泛应用的视频技术进行了调研分析, 根据其传输特点实现了视频流识别和信息获取。 本文重点研究了视频流识别技术、视频关联信息识别技术、视频参数解析技术。 通过对这些技术的研究, 总结了一系列视频流识别和信息获取方法。

参考文献

[1]苏杭, 王劲林, 尤佳莉.P2P流媒体邻居节点组织与行为预测[J].西安交通大学学报.2012 (10) .

[2]程伟.网络视频流质量监测系统设计与实现[D].北京邮电大学2012.

视频识别 第5篇

关键词:视频监控系统;目标跟踪;图像识别

中图分类号:TP391.41 文献标识码:A 文章编号:1674-1161(2014)10-0025-03

煤炭资源是一种宝贵的不可再生资源,其在国家经济发展中起着非常重要的作用。在当今市场机制条件下,需要对煤炭资源的开采与利用进行有效监控,以实现对煤炭资源的最大限度的保护。在煤场入口处设计并安装一套视频监控跟踪识别系统,对进入场区的车辆进行监控,从而对运煤车辆进行放行判断。

1 视频监控跟踪识别系统的组成与工作原理

视频监控跟踪识别系统可对场区的车辆在入口处进行跟踪识别、图像采集、监控与管理。系统由车体感应器(一般为感应线圈,本系统采用地磁传感器)、彩色摄像机(一般为CCD摄像机)、图像采集卡、视频卡、PC机及跟踪识别系统的软件组成。系统大体上可以分为图像采集模块、运动目标跟踪模块、车牌识别模块、地磁感应模块、云台控制模块五大部分。其中,图像采集模块和地磁感应模块属于硬件范畴,而目标跟踪模块、车牌识别模块及云台控制模块属于软件范畴。

系统的工作流程如图1所示。当汽车到达入口附近(一般距离入口5~8 m)经过车体位置传感器的敏感区域时,车体位置传感器发出一个信号给上位机;为了获得符合要求的图像,目标跟踪模块将被启动,其目的是捕获符合要求的图像。通过CCD摄取的图像,经解码器、RS232-485转换器、视频卡后输给计算机,与定义的跟踪目标进行比对,符合要求则采集该图像,然后将采集到的图像送入车牌识别模块进行识别,最后做出放行与否的判断;并将识别后的包括车牌的部分汽车图像存入系统数据库中,供后续管理之用。在对车牌的身份识别过程中,将车牌号、车型与数据库中存入的信息进行对比,只有这3个部分的信息全部吻合,才认为是合法的车辆,系统将启动门禁开关进行放行。对于不合法的车辆,系统则给出报警信号,禁止放行,由工作人员进行校对,查明具体原因;问题解决后,工作人员将异常原因进行记录,然后决定是否放行。

2 视频监控跟踪识别系统的功能

整个煤场的视频监控跟踪识别系统的主要功能是对进入场区的车辆进行监控。系统采用云台、摄像头、目标跟踪技术、车牌识别技术相结合的方式,对车辆的身份进行识别。当地磁传感器感应到车辆到来时,会给上位机一个信号,由上位机启动云台和摄像头开始工作。系统不断地查询图像的结果,在此过程中,图像的跟踪与识别是同时进行的。由于车牌的位置没有统一要求或有障碍物遮拦,云台要不断地运动去跟踪捕捉含有车牌的汽车图像,然后再进行合法性识别。

为了使车辆自动跟踪识别技术更好地在实际系统中得到应用,实现车辆的智能跟踪识别和路障的自动控制,最终实现煤场车辆管理和识别的安全智能化,将视频监控跟踪识别系统的总体结构设计为车辆到达感应部分、图像采集部分、云台控制部分、上位机、车牌识别部分(见图2)。1) 车辆到达感应部分。地磁传感器安装在距离入口5~8 m处,在感应到车辆到达的信息后,向上位机发送车辆到达信息,使上位机发送控制信号给摄像头进行图像采集。2) 图像采集部分。对进入监控区域的车辆进行拍照,并将拍摄完毕的照片传送至上位机,为后面的车牌号码识别做准备。一般要求摄像头连续抓拍3~4张,以防有不清晰无效照片,提高识别效率,加快系统对图像识别的速度。3) 云台控制部分。系统最终需要的是含有车牌的汽车图像,由于车牌位置的主观性及障碍物的遮拦,需要使云台不断地运动(俯仰、左右摇摆等),以获取系统需要的图像。4) 上位机。存储并管理所有的车辆信息(包括车牌号、车主、车辆型号、特征、车辆进入时间、车辆空载的质量、车辆照片等)。上位机不停地查询地磁传感器的状态,一旦被触发,系统将会把指令信息传送给摄像头和云台,进行图像的采集、跟踪与识别,判断该车辆是否合法,合法则启动路障放行,非法则给出报警信号。

3 视频监控跟踪识别系统的优势

视频监控跟踪识别系统基本摆脱了人为操作,能够弥补人为操作的许多不足,提高了进入煤场车辆识别的速度及准确性,改善了以往与现代化管理不相称的管理模式,基本实现了场区车辆管理的自动化、科学化、规范化和智能化。

一是提高使用效率,降低劳动强度。在不影响汽车状态的情况下,计算机自动完成图像的识别与跟踪。由于减少了人工的参与,从而最大限度减少了人员开支费用以及由于人为失误或舞弊造成的损失,节省了人力、物力,大大提高了整个系统的经济性、安全性和使用效率。二是提高识别准确度。系统采用了车辆自动识别技术,在充分分析车辆识别技术中的射频识别、条形码识别、车牌识别等方法的优缺点的基础上,根据实际情况选用了车牌识别方法。采用云台对车辆进行动态跟踪以及摄像头连续抓拍,能捕捉到更清晰的图片,缩短了查询时间,提高了识别的准确度。三是降低整个系统的成本。在车辆验证过程中采用了车牌自动识别方法,通过软件编程即可实现,与传统的车牌识别方法(射频识别、条形码识别)相比,不需购买任何配套的硬件设施,简化了系统,降低了系统的成本,同时提高了系统的技术含量,大大降低了人为弄虚作假的概率。四是提高门禁系统自动化程度。传统路障设施的操作由人工控制,自动化程度低,工作人员很可能放行非法车辆,造成能源的丢失。采用该系统后,实现了自动化,不需要人为的参与。五是具有可扩充性。系统设计中考虑到科学技术的发展和新技术应用的需要,保留与其他自动化系统或计算机连接的接口,具有更新、扩充和升级的可能,可以根据该项目的实际要求扩展系统功能。六是具有先进性与适用性。系统的技术性能和质量指标达到国际领先水平;同时,系统的安装调试、软件编程和操作使用简便易行,容易掌握,适合中国国情和煤场项目的特点。

nlc202309020311

4 结语

视频监控跟踪识别系统将目标跟踪和车牌识别技术进行融合,避免了摄像头从单一角度对目标进行监控,通过云台的旋转从不同的角度对目标图像进行扫描,获取更加清晰的图像,提高系统识别的准确性及快速性。另外,该系统是面向各种管理层次使用的系统,其功能的配置能给用户提供舒适、安全、方便、快捷的服务。

参考文献

[1] 杨建全,梁华,王成友.视频监控技术的发展与现状[J].现代电子技术,2006,21(3):84-87.

[2] 王晨.智能视频监控设计[D].南京:南京理工大学,2007.

[3] 陈轶博.智能视频监控的设计与实现[D].大连:大连海事大学,2008.

[4] 欧扬,刘元祥.智能视频监控系统中运动检测技术的研究[J].工矿自动化,2006(6):5-16.

[5] 范金刚.智能视频监控系统若干关键技术的研究与实现[D].成都:电子科技大学,2006.

[6] KASS M,WITKIN A,TERZOPOULOS K.SNAKES.Active contour models[J].InternaJournal of Computer Vision,2003(4):321-331.

[7] LEDUC J.P.Spatio-temporal wavelet transforms for motion tracking[J].Transactions on Circuits and Systems for Video Technology,

2003,8(3):275-282.

[8] 金世佳.图像跟踪识别技术在煤炭运量视频管理系统中的应用研究[D].沈阳:东北大学,2010.

Abstract: To design a video surveillance tracking and identification system setting in coal mill entrance, will monitor the trucks entering and exiting. To introduce the structure and operating principle of the video surveillance tracking and identification system, expounds the functions of each part in the system, to analyze various advantage of the system, will provide a reference for the application of the system using in coal mills.

Key words: video surveillance system; target tracking; image identification

基于多镜头的视频行为识别方法 第6篇

基于视频的行为识别及人脸表情识别等问题是目前视频信号处理研究的前沿课题,项目的实施需要涉及到视频信号处理的各方面技术,包括去噪、编解码等基础问题,项目的研究必然推动视频信号处理理论和技术的发展。随着理论问题的突破,视频监控的应用也可以推广到更多的场景。

1 基于多摄像机的目标提取与跟踪

人体的跟踪研究还很缺乏,身体姿势和运动在单一视角下由于遮挡或深度影响而容易产生歧义现象,因此使用多摄像机进行人体姿势跟踪和恢复的优点是很明显的。同时,多摄像机的使用不仅可以扩大监视的有效范围,而且可以提供多个不同的方向视角以用于解决遮挡问题。很明显,未来的人运动分析系统将极大受益于多摄像机的使用。对于多摄像机跟踪系统而言,我们需要确定在每个时刻使用哪一个摄像机或哪一幅图像。也就是说,多摄像机之间的选择和信息融合是一个比较关键的问题。

1.1 基于背景融合的多镜头运动融合方法

由于拍摄角度不同,同一事物的运动在不同镜头中表现可能完全不同。根据摄像机方向一致且拍摄范围高度重合的特点,本文提出基于背景融合的多镜头运动融合方法。背景合成方法可以对场景内的事物进行协同处理,避免对同一事物重复计算,简化系统运行过程中的坐标变换过程。假定各相邻摄像机的摄像距离和角度相同,则可以使用使用以下公式判定和求解背景重叠:

其中F1,F2分别为两个摄像机在同一时刻拍摄到的图像,Ω,Ψ分别是两幅图像的子区域。D(F1,F2)越大,则两个图像的重叠区域越大。其中重叠区域则可以通过最小化来判定。

图1中,红、黄、绿、蓝四个方框代表四个摄像机的可视区域,背景融合则是将这四个区域合成为一个整体。

1.2 人体提取技术方案

为获得视频中完整的人体图像,本项目拟采用背景差分的方式提取人体。首先通过时空联合进行去噪,同时消除闪光和抖动,然后使用中值滤波联合运动分析进行动态背景建模,最后利用背景差结合运动跟踪情况获得视频中的人体图像。

监控系统中由于连续采集的需要,视频信号的质量较差,尤其在银行这样的室内环境中,由于光线不足,采集受空气扰动影响较大,视频中噪声污染较为严重。噪声不仅影响视频的视觉效果,而且严重影响视频对象分割与识别的准确率。传统的去噪方法主要是在图像内进行的,如高斯滤波器、维纳滤波器、中值滤波器、频域滤波和小波域去噪等,都是利用图像的空域相关性进行平滑处理。但空域相关性并不能完全区分视频信号与噪声信号,图像边缘和细节的空域相关性较弱,而污染严重时噪声之间却产生较强空域相关性。这使得空域滤波在去噪时无法避免破坏图像细节,且去噪能力不强。由于视频信号具有连贯性,视频帧间的时域相关性远远大于空域相关性,近年来,人们开始研究时域和时空域联合的视频去噪方法,而单纯的时域滤波忽略了空间相关性,虽然在信噪比等参数上有所提高,但视觉效果不佳,所以时空联合成为视频去噪的主要发展方向。时空联合去噪方法比以往的各种方法更能保护图像细节,去除视频噪声能力更强,运算速度较快,视觉效果和峰值信噪比(PSNR)都可以得到有效提升。消除闪光和抖动则可以直接采用现有成熟技术。

运动物体的提取方法主要分帧差法背景差法两类,帧差法获得的物体不完整,背景差法需要有固定背景或动态背景建模,银行内的光线、器具摆放等背景因素都不固定,因此不能使用固定背景的方法,项目拟采用基于中值滤波与运动分析结合的动态背景建模方法。首先通过运动检测与跟踪,获得当前帧中静止区域累积各像素点的颜色直方图,然后通过直方图计算中值作为背景。

通过上述背景建模和背景差应该可以准确地获得当前场景中的运动物体,但项目中需要获得的是完整的人体,因此需要在背景差的基础上滤去一般物件和阴影等非人体因素,并且要能区分出长期停留的人体部分,解决这些问题的主要技术手段有运动跟踪、体积判定、二阶差分等。

1.3 多目标跟踪

目标跟踪的研究历史较长,但多目标跟踪仍是视频分析中的一个研究难题,尤其在本项目中,目标间存在交叉、重合和停留的情况。通过多个目标的运动状态进行跟踪,不仅可以对各目标的行为进行单一分析,也可以帮助对目标的交互行为进行分析,以及对目标的群体行为进行识别。多目标跟踪的主要难题在于各目标之间的重叠,本文通过运动方向不变的假设来解决这一问题,即认为当对象重叠再分开后,由原来运动状态决定。

令两个视频对象的速度分别为v1、v2,加速度分别为a1、a2,重叠后经过t时间段分离,则使用:

分别预测两个对象的位置,然后认定与预测位置相接近的对象为原跟踪对象。

当有多个对象重叠时,将上述方法进一步推广,则可以解决一般多目标跟踪的问题。

2 基于多镜头的行为识别

2.1 人体行为识别

目前人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少,而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如HMM等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。

行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。

使用基于多镜头的行为识别,不仅可以结合多摄像机获得的多角度信息,而且可以通过各角度信息进行结果验证。多镜头为行为识别提供了丰富的识别素材,这也为引入人工智能、机器学习等手段提供了基础。

2.2 基于层次分析的事件判定机制

盗抢案件的发生是双方或多方的事件,案件行为既有行为人整体、群体的表现,也有人体部分运动的表现,基于视频信息判定案件发生既有定量的信息又有定性的信息,使用层次分析方法可以有国地结合各方面的因素。层次分析方法起源于运筹学,目前也有人将它引入网络自动选择等问题,本文首次将它引入事件判定机制,为事件的判定提供了新的思路和方法。

3 结论

由于拍摄角度不同,同一事物的运动在不同镜头中表现可能完全不同。本文在摄像机方向一致的假设前提条件下,依据拍摄范围高度重合的特点,提出基于背景融合的多镜头运动融合方法。背景融合方法可以对场景内的事物进行协同处理,避免对同一事物重复计算,简化系统运行过程中的坐标变换过程。结合多目标跟踪、人体行为识别等技术,本文提出了一套新的高效行为识别方法。

摘要:该文提出一种基于多摄像机信息融合的行为识别方法。新方法使用背景融合的方式融合多镜头的信息,使用背景差分提出人体目标,基于运动惯性定律解决了多目标跟踪的问题,并在行为识别中引入了人工智能和多层次分析等先进的手段。

关键词:行为识别,多镜头,视频监控

参考文献

[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[M].计算机学报,2002,25(3):225-237.

[2]李妍婷,罗予频,唐光荣.单目视频中的多视角行为识别方法[M].计算机应用.2006,26(7):1592-1594.

[3]张丽君,吴晓娟,盛赞,等.基于HMM复杂场景下的行为识别方法[M].计算机工程,2008,34(7):212-214.

[4]胡长勃,冯涛,马颂德.基于主元分析法的行为识别[M].中国图象图形学报,2000,5(10):818-821.

[5]凌志刚,赵春晖,梁彦.基于视觉的人行为理解综述[M].计算机应用研究,2008,25(9):2570-2578.

[6]Kittler J,Ballettem,Christmasw J,etal.Fusion of multiple cue detectors for automatic sports video annotation[M].Workshop on Structura,Syntactic and Statistical Pattern Recognition.2002:597-606.

基于视频的运动目标检测与识别 第7篇

近年来,随着计算机技术的不断提高,智能视频监控技术得到了很好的改善,并被逐渐应用于城市道路、小区、银行等重要场所及对场景中的异常事件或人的异常行为的监控中,因此应用前景广泛。目前基于视频的检测方法主要有:基于帧间差分的方法、基于光流场的方法、基于背景差的方法等。帧间差分法是基于运动图像序列中,相邻两帧图像间具有强相关性而提出的检测方法,具有很强的自适应性。但如果物体内部灰度分布均匀,这种方法会造成目标重叠部分形成较大空洞,严重时造成目标分割不连通,从而检测不到目标[1]。

光流场法是基于对光流的估算进行检测分割的方法。光流中既包括被观察物体的运动信息,也包括有关的结构信息。光流场的不连续性可以用来将图像分割成对应于不同运动物体的区域。但多数光流法的计算复杂、耗时,难以满足实时监测的要求[2]。

背景差法是运动检测中最常用的一种方法,它将输入图像与背景图像进行比较,直接根据灰度的变化等统计信息的变化来分割运动目标。差分法一般计算量小,实用价值大。缺点是受光线、天气等外界条件的影响较大。在此采用基于混合高斯模型的背景差法[3]。

1 背景建模

1.1 混合高斯模型背景建模

混合高斯模型对背景[4]图像中每个点用k个独立的单高斯模型η(Xt,μt,i,σti2),i=1,2,3,…,k描述(k一般取3~5之间)。设像素点的值为x,t时刻该像素点的值的概率为:

p(Xt)=i=1kωi,t*η(Xt,μi,t,σi,t2)

η(Xt,μt,i,σti2)是t时刻的第i个高斯分量,其对应的均值为μt,i,方差为σti2,ωi,t是第i个高斯分量对应的权重,且有i=1kωi,t=1k个高斯分布根据优先权ω/σ的值的大小排序。

混合高斯背景按照如下进行更新:

如果|Xt-μt,i|<λ,则μi,j=(1-ρ) μi,j-j+ρXt;σi,j2=(1-ρ)σi,j-12+ρ(Xt-μi,j)T(Xt-μi,j),这里ρ=αη(Xt,μi,i,σii2),α表示学习因子。

同时第i个高斯分量的权重调整为:ωt,i=(1-α)ωt-1,i+αMt,i当前观测值属于第i个高斯分量时,Mt,i为1,否则取0。未被匹配的高斯分量保持参数不变。

Xt未和任何一个高斯分布匹配,则优先权最小的高斯分布被一个新产生的高斯分布所替换,新的高斯分布参数为μt,i=Xt,σti2值取大值,ωt,i取小值。背景更新后,权重重新标准化。

前景按照如下方法进行检测。所有的高斯分布按照优先级降序排列。权重越大,偏差越小的分布越重要而被认为是背景的分布。令:

B=argminb(i=1bωt,i/i=1kωt,i>Τ)

式中:T为预先选取的阈值。则B被认为是背景。因此如果没有和这些相匹配,该像素被认为是前景。

1.2 对混合高斯模型的改进

为了满足实时视频检测的快速性,在此对基于灰度的混合高斯模型做适当改进:

(1) 参数更新方面

① 均值更新采用μt,i=(1-α)μt,i-1+αXt使均值的更新不依赖于协方差而独立进行,避免了使方差一直偏小的“恶性循环”。

② 对均值更新中的学习因子α进行动态调整。较大的学习因子α能使高斯混合模型很好的适应场景中的突变。但同时较大的学习因子α也可导致感兴趣的前景目标无法正确的检测。因此必须实时调整学习因子。在文章后面介绍的对目标进行分割后,如果监测到整幅图像中被判别为前景的数量超过当前图像中75%的像素点,就增大下一时刻均值更新的学习因子α的值,否则,保持一较小值。

③ 判断准则采用|Xt-μt,i |<Th,Th为经验阈值,从而省略了对协方差的更新,节省了大量时间。但对于交通流量较大的场景图像不利于背景图像的正确刷新,因此在这种场合下引入帧差法进行辅助选择更新具有较好的效果。该过程表示为:

{|Xt-Xt-1|ΤDelse

式中:TD为帧差阈值;Xtt时刻的某点像素灰度值,Xt-1为t-1时刻与Xt相对应的像素点的灰度值。

(2) 初始背景建模阶段。一般的混合高斯模型是用第一帧图像作为初始背景模型进行建模的,但对于一些场景,如交通场景,目标较多,含有各种噪声,因此对学习因子及各种参数的更新方法有一定的要求,选择不佳势必会影响背景的刷新速度及质量。因此采用基于概率的统计背景作为背景图像的初始高斯模型参数。首先选取n帧序列图像(对于交通场景实验证明n>70较好),对每帧图像中对应位置的每一个像素点的灰度值进行统计,统计完成后,图像中的每个像素点有n个对应的值,将其中出现次数最多的灰度值作为混合高斯模型的初始背景值。实验证明对于复杂场景比直接进行高斯更新要节省一定的时间而且效果较好,当然对于一般场景没必要进行这种统计初始建模。

(3) 背景更新阶段。混合高斯模型的更新机制适用于亮度发生渐变的场景。但当原背景中有物体移出检测场景时,背景发生变化,从而导致某个图像区域被认为是前景物体而不做更新,在图像中就会产生鬼影,或者运动的物体做短暂的停留时,会被认为是背景的一部分而进行刷新,因此采用前景计数器统计每个像素点被连续检测为前景点的次数,如果计数超过某一个阈值则该点的背景就用前景点替代,即将其刷成背景。

2 运动目标检测及提取

2.1 背景梯度差分

在背景提取[5,6]的基础上,利用图像的梯度不受亮度、量化噪声影响的特点,对背景和当前帧用Sobel算子进行梯度差。这样可以更准确地检测运动目标,并可部分消除阴影及噪声的影响。梯度差突出了运动目标的轮廓,但容易使目标内部产生空洞,因此梯度差后还要对图像做适当的区域填充。

在室外环境下,场景本身常具有领域运动的特性,如树叶的晃动、飘动的旗帜等。因而进行背景减时,采用邻域背景减法:

BΚ(x,y)=mini,j[|ft(x,y)-Bt(x+i,y+j)|]

式中:i,j∈{-1,0,1},ft(x,y)表示当前帧图像;Bt(x+i,y+j)表示经高斯背景模型后的实时背景图像。BK(x,y)表示背景减后的图像。在此采用3×3的小邻域。

2.2 邻域平滑

对背景差分后的图像进行3×3的中值滤波,以消弱图像中噪声的影响。

2.3 阈值分割

运动检测可以看作是对差分图像每个像素的二分类问题,即属于背景的静止像素和属于目标的运动像素。因此这里采用Otsu′s法对差值图像求取阈值进行二值化。

2.4 形态学处理

由于场景中各种因素的影响,在获取的二值图像中,除了运动物体外,还存在着很多细小的残留噪声,使运动目标区域会出现不同程度的碎片,因此,需要对图像进行数学形态学处理。在此采用膨胀、开运算,去除了图像中的细小噪声并平滑了物体边界。

2.5 阴影的处理

利用Sobel梯度差可减小阴影的影响。但对于有较大阴影时不适用,因此为了更准确的分割出目标,文中采用用SHV色度模型,较好地消除了阴影[7]。

3 运动目标的分类

利用八连通邻域区域标记法对二值图像进行区域标记,对各区域赋予有序的标号后,利用小区域消除法去除小于阈值的连通区域,并且去除在图像边界上的连通区域。最后对各有效目标区域提取特征参数。

3.1 特征参数的提取

对标记后的目标二值图像提取[6]如下特征参数:

(1) 形状因子。区域Ri的形状因子fi=(Pi2)/(4πAi),式中PiAi分别表示区域Ri的周长和面积,形状因子在一定程度上描述了区域的紧凑性,它没有量纲,所以对尺度变化不敏感。为了简化计算,这里采用形状因子的简化式紧密度Compactness=Ai/Pi2作为目标特征。

(2) 长宽比。实验表明,汽车及动物在图像中长与宽之比应该大于1,而人的应该小于1。若Wi,Hi为找到的第i个运动目标的最大宽度和高度,运动目标的长宽之比为:Di=Wi/Hi,而定义体态比为ARi=1/Di

3.2 运动目标的分类

步骤1:通过检测到的目标的宽度值,对人车进行粗分类[8]。

ΟBi1={1Wi>Τw0else

Tw是宽度阈值,它随着目标质心离摄像机的远近而取不同的值。如果目标大于宽度阈值,则可能是车辆,也可能是人群等;但如果小于Tw则就不可能是车辆。

步骤2:使用紧密度和长宽比进行人车识别。

人群和车辆,两者最大的区别在于紧密度。试验中人群和汽车的紧密度典型值分别为:0.014 4和0.057 7。人、自行车及摩托车最大区别在于体态比,人的体态比最大,其次是自行车,最小的是摩托车,它们的典型值分别为11.11,9.53,5.76.因此可以利用紧密度和体态比将人和车辆区分开来。但由于物体相对于固定摄像机的角度不同,当目标相对于摄像机做正面运动时,自行车、摩托车和人区分开,但可在识别部分利用运动速度来区分自行车(摩托车)和人。

4 运动目标跟踪识别

4.1 提取目标信息

通过目标的分类可以很好地区分行人和汽车。

(1) 如果目标被分类为汽车,可利用目标的长度来进行大小车的统计;

(2) 如果为行人,则提取下列参数:

目标区域的面积、周长、目标质心坐标、均值、均方差、特征不变量(二阶中心距)。

根据目标特征参数建立目标信息描述类:

Typedef CObjectInfo

{int index; //目标的索引值,即标签值

CPoint point; //目标质心

int width; //目标外接矩形宽度;

int height; //目标外接矩形高度;

int area; //目标面积;

int gray; //灰度均值;

int fh; //方差;

int uvalue; //矩不变量;

int speed; //目标速度标量;

int vdirection; //目标行走方向,由远到近

//为1,由近到远为-1;由左//到右为2,由右到左为-2;

int change; //用于标记目标速度的方向

//是否改变;

int staynum; //用于标记目标停留次数;

int lostob; //目标丢失计数器;

}P;

利用目标描述类,对t时刻图像中的目标建立目标链NewList,而t-1时刻的目标链为OldList,然后利用目标链对前后帧的各个目标进行特征匹配处理:

① |PiNewList.area-PjOldList.area|<Tarea;

其中PiNewList.area表示NewList中的第i个目标的目标面积,PjOldList.area表示OldList中的第j个目标的目标面积。

② |PiNewList.gray-PjOldList.gray|<Tgray;

③ |PiNewList.fh-PjOldList.fh|<Tfh;

④ |PiNewList.uvalue-PjOldList.uvalue|<Tuvalue

满足上述4个条件,则表示找到匹配目标,否则搜索t-1时刻的其他目标,如果找不到,则作为新目标单独处理。如果有多个匹配目标,取质心距离最近的目标作为匹配目标。所有目标进行匹配处理后,用t时刻的目标链NewList建立t-1时刻的目标链OldList,然后利用下一帧的信息建立新的目标链NewList,进行新的匹配处理。

4.2 遮挡的处理

运动目标识别跟踪[6]的一个难点就是目标的遮挡问题。遮挡分为2种,一是临时遮挡,目标在被遮挡后很快又出现在视场中,另一种是从进入视场到离开视场,目标始终都被遮挡,称为严重遮挡。

(1) 严重遮挡。

采取简单策略,每次都将它视为一个新的目标来处理。

(2) 临时遮挡

① 出现:

一个新的目标出现,将丢失计数器置为0,并把该目标加入当前目标链中;

② 消失:

如果目标链中的目标在当前图像中找不到匹配目标,则表示目标正在消失,丢失计数器增1,当丢失计数器足够大时,认为目标消失,在目标链中删除该目标;

③ 合并:

多个目标相互遮挡时,认为单目标丢失,对各个目标做消失处理,然后将多个目标合并成一个新目标处理;

④ 分离:

当一个大目标分成多个小目标时,将这些小目标作为新目标处理。

4.3 行人异常行为的检测

跟踪匹配后,进行异常检测:

① 行人奔跑

如果|PiNewList.speed|>Tspeed则认为目标移动速度过快,则发出异常警报。

② 行人在某个区域徘徊

如果PiNewList.vdirection不等于PiNewList.vdirection,PiNewList.change++,当PiNewList.change大于阈值时,表示有行人徘徊,则发出异常警报。

③ 行人停止不动

如果|PiNewList.point-PjOldList.point |<Tpoint并且|PiNewList.speed-PjOldList.speed |<Tspeed,则PiNewList.staynum++,超过阈值,表明长时逗留,则在把停止的行人刷成背景之前,发出异常警报,并停止对该区域的背景刷新。

5 实验数据与分析

该实验使用固定在三脚架上的彩色摄像机,在室外共拍摄了一个交通场景,两个川大室外场景进行实验。视频图像帧的大小为320×240像素,在普通PC机(AMD Sempron Processor 3000+,1.60 GHz,1.00 GB的内存,天敏 SDK2500 视频采集卡)上,用VC++ 6.0编写程序对摄像机输出的实时视频进行25 f/s的采集分析。在提取初始背景时采用25 f/s的处理速度,初始背景提取完后,目标检测与跟踪算法采用8 f/s的处理速度,得到了令人满意的结果。

图1,图2是对不同场景用改进后的混合高斯背景模型得到的背景图像,可以看出针对不同性质的场景都能得到较好的背景图像。

图3表明梯度差比普通差分能更好的提取目标轮廓。

图4说明当运动目标在某地徘徊时,方向计数器如果大于一定阈值,则对该目标发出异常报警。

图5说明当目标运动速度大于一定阈值时,系统发出异常警报。

图6是对一个目标存在遮挡的视频序列进行目标跟踪的结果,图中运动目标在行进过程中被背景中的树木完全遮挡导致目标失踪,几帧后,目标重新出现,由于遮挡时间较短,以此仍可利用遮挡前的特征参数进行匹配,因而实现连续识别跟踪。

背景更新部分,采取了川大室外的一段视频用常用的背景更新方法,如Surendra背景更新算法[9],卡尔曼滤波算法[10],混合高斯模型法等背景更新方法与文中提出的改进的混合高斯模型法进行了对比实验,得到如表1所示结果。

6 结 语

提出一种在静止摄像机条件下基于背景模型的运动目标检测和识别算法。该方法的背景更新算法能同时满足各种简单和复杂场景的应用需求,且性能优良;检测识别算法对各种独立目标具有良好的检测效果,并能对多种异常行为进行报警,实用价值明显。接下来将以此为基础,将多目标复杂遮挡情况下的监控作为下一步的研究重点。

摘要:为了对目标进行跟踪和识别,针对固定场景提出一种基于视频的运动目标检测和识别算法。该方法采用改进的混合高斯模型为动态背景更新方法,并结合梯度背景差分方法及Otsu′s阈值分割法提取出运动目标,然后利用目标特征参数建立目标链,通过两条目标链间的目标特征匹配实现运动目标的快速跟踪与行为识别。该方法与传统方法相比具有更好的学习能力,提高了算法的场景适应性,从而有效地提高了运动目标检测的正确率和快速性。实验结果表明该方法具有良好的鲁棒性和自适应性。

关键词:背景模型,混合高斯模型,运动目标检测与识别,Otsu′s阈值分割法

参考文献

[1]Gao Hongzhi,Green R.A Robust Moving Object Segmenta-tion Algorithm[A].Proceedings of the 2007 InternationalConference on Wavelet Analysis and Pattern Recognition[C].Christchurch,2007(1):214-217.

[2]Kinoshita K,Enokidani M,Izumida M,et al.Tracking of aMoving Object Using One-Dimensional Optical Flow with aRotating Observer[A].9th International Conference on Con-trol,Automation,Robotics and Vision[C].Singapore,2006:1-6.

[3]Piccardi M.Background Subtraction Techniques:A Review[A].IEEE International Conference on Systems,Man andCybernetics[C].2004(4):3 099-3 104.

[4]Chris Stauffer,Grimson W E L.Adaptive Background Mix-ture Models for Real-time Tracking[A].IEEE ComputerSociety Conference on Computer Vision and Pattern Recog-nition[C].Fort Collins:IEEE Press,1999:246-252.

[5]夏良正,李久贤.数字图像处理[M].南京:东南大学出版社,2005.

[6]杨淑莹.VC++图像处理程序设计[M].北京:清华大学出版社,2003.

[7]Cucch Iara R,Grana C,Piccard IM,et al.Improving ShadowSuppression in Moving Object Detection with HSV Color In-formation[A].Proceedings of IEEE Intelligent Transporta-tion Systems Conference[C].Oakland:IEEE Press,2001:334-339.

[8]王陈阳,周明全,耿国华.基于自适应背景模型运动目标检测[J].计算机技术与发展,2007,17(4):21-23,26.

[9]Surendra Gupte,Osama Masoud,Robert F K Martin,et al.De-tection and Classification of Vehicles[J].IEEE Trans.on Intelli-gent Transportation Systems,2003,3(1):37-47.

一种实时数字视频内容识别方法 第8篇

关键词:视频识别,实时检测,特征融合

1 引言

随着信息网络的发展、广播电视数字化的深入推进以及移动电视、手机电视、网络视频、IPTV等新媒体业务形式的出现,使得数字媒体的版权保护和内容监管形势越来越严峻,但由于目前数字版权保护技术尚未形成统一的标准,因此在实施有效的版权保护监测、发现盗版和非法播出等方面的技术尚不成熟。而基于内容的视频识别技术完全可以满足这一需求,甚至可以应用于对不同传播媒体的内容监测,对保证数字内容产业的可持续良性发展具有非常重要的意义。

当前针对静态视频文件内容分析和检索方法的研究很多[1,2,3],也有较为成熟的系统推出,如Open V,Google等提供的视频搜索引擎。相比之下,对播出视频节目进行在线实时内容识别的方法还少有报道,相关技术尚未成熟。笔者提出一种实时视频内容识别算法模型,旨在有效解决数字电视及流媒体播出过程中对特定视频内容进行实时识别检测的问题。

2 实时视频识别问题定义

实时视频识别的问题可描述为:边接收播出的视频数据边作内容的识别,内容识别完成时刻t1与内容播出时刻t0之间允许存在一定的时延τ,但τ值必须恒定在一个范围内,τ值越小表明识别的实时性越好。这里定义的内容识别是指从接收到的视频流中识别出与样本视频具有相同内容的片段,相同视频片段的时长和帧内容均要相同,但容许适度的信号特征畸变,例如图像尺寸和质量的变化。识别前需要建立样本视频库,识别时把视频流中截取出的片段与样本库进行比对,从而找出匹配的样本。

实时视频识别比静态视频文件识别难度更大,主要体现在以下几个方面:由于视频内容识别需要积累一定时长的数据量才能得出结论,考虑到实时性又不能无限延长接收时间,这就必须根据当前接收的数据作识别,但当前数据可能不包含完整的样本视频内容信息,所以如何保证实时条件下的识别正确性是必须研究的问题;第二个问题是内容识别的速度是否足够快,能否快于数据增长的速度,如不能则达不到实时要求;另一个要考虑的问题是实时识别场合下通常需要配合一些实时决策手段,所以对识别的准确率也提出了更高的要求。

3 实时视频识别算法模型

在笔者提出的实时视频识别算法模型中,需要事先确定两个重要的值:一是样本视频时长L,如果样本视频时长大于L,则取它的前端长为L的片段;二是识别间隔T,即相隔多长时间作一次内容识别,其倒数代表了识别的频次。假定作一次内容识别所需时间为T0,则必须满足T>T0。所以识别速度越快,识别间隔T可以设得越小,相应的时延τ就越小。

图1的模型显示了如何从视频流中截取视频片段作为一次内容识别的有效区域。在此模型中,当一次内容识别启动时,它将从当前时间点起向前截取长为L+T的视频片段S用于内容识别,其中包含从上一次识别启动以来新增加的长为T的视频数据,还包含向历史视频数据回溯长为L的区间。以S的起点为原点0,则其区间表示为(0,L+T]。作内容识别时,利用样本视频对象O在区域S内滑动以搜索内容相同的片段,只有当O完全包含在S内才能被检测出。设区域S内起点为t长为L的视频对象记为O(t),若存在与样本视频O相同的视频对象O(t′),则必须满足0

视频匹配是基于内容特征的,设视频对象O的特征表示为F(O),本模型假定O可由其特征唯一确定,则以下关系式成立:O1=O2,则F(O1)=F(O2);O1≠O2,则F(O1)≠F(O2)。当样本视频O从区域S起点开始滑动到位置t′时,得到F(Ot′)=F(O),则样本视频被检出,当有偏移时,特征不符,样本视频不会被检出。

对于上述算法模型,可以证明具有如下几个性质:

性质1:样本视频O总可以在一个且仅有的一个视频识别区域S内被完全包含并检测出来。证明如下:

把当前识别区域S的左右识别区域计为Sn,n=±1,±2,…,n为负值时代表左区域,为正值代表右区域。以当前识别区域的起点作为时间原点,则左或右的第n次识别区域边界可表达为(nT,L+T+n T]。考虑样本视频与当前区域存在重叠的情况,设样本视频的起始位置为t′,-L

由此可见样本视频边界完全包含在第n次识别区域的边界内,可以被完整识别。样本视频的分布区域可以分为以下3种形式:

1)当0

2)当T

3)当-L

下面证明唯一性:

不失一般性,假定样本视频O完全包含在当前区域S内,其边界为[t′,t′+L],0

性质2:若将视频识别的时延值τ定义为样本视频右边界与识别结束时刻的差值,则满足T0<τ

性质3:视频数据的重复使用率为。把重复使用率定义为重复使用一次以上的数据总量与原始数据总量的比值,该指标可用来衡量识别算法的计算量。证明如下:对于每一个新增的时长为T的视频数据,除了构成当前识别区域S的数据外,其整体数据还将被接下来的个识别区域使用,符号表示向下取整,而其右端L%T部分的数据还将被区域使用,符号%表示求余,于是可得重复使用的数据总量为,故重复使用率为。由此可见,数据重复使用率与识别间隔成反比,当识别间隔越小,即实时性越好时,数据的重复使用率越高,计算量越大。

4 视频内容特征模型与匹配

视频内容识别是基于特征匹配的,本方法中视频内容特征模型采用能描述整段视频颜色特征和纹理特征分布的统计模型。一段视频可表示为一组图像帧(Go F),对于每一帧图像,计算其RGB颜色直方图和纹理特征。RGB的每一通道被均分为8个等级,于是颜色直方图为512维的特征向量。纹理特征计算采用概率纹理分析的共现阵法[4],该法首先形成一个灰度空间相依矩阵,然后根据该矩阵可计算出13个纹理特征分量。由于以上13个纹理特征分量的物理意义和取值范围不同,所以对它们进行高斯归一化处理,这样在计算特征距离时,可使各分量具有相同权重。高斯归一化方法是一种较好的归一化方法,其特点是少量超大或超小的元素值对整个归一化后的元素值分布影响不大。

在计算得到每帧图像的颜色和纹理特征基础上,再用聚类的方法得到典型的特征分布,聚类算法采用的是K-Means聚类算法[5]。颜色特征向量(512维)和归一化的纹理特征特征向量(13维)分别进行聚类,特征距离采用欧氏距离。将颜色特征与纹理特征的类中心数都设为5,于是一段视频的特征F(O)就由5个颜色特征向量和5个纹理特征向量来描述。这种表示法的优点是一段视频用固定维数的特征向量表示,可以抵抗个别帧特征的畸变,也可以消除帧率变化的影响。

当用样本视频O在识别区域S内进行滑动匹配时,首先要计算出当前窗口视频O(t)的颜色和纹理特征,然后采用颜色特征距离值与纹理特征距离值的线性组合来度量两段视频的距离,本文将每个特征距离的加权值均设为0.5,取得最小距离的位置将选为最佳匹配点。

由于样本视频库通常具有成百上千个视频片段,为了判定待测视频片段与哪一个样本视频具有相同内容,采用最近邻分类器将测试视频识别为与其距离最小的样本视频,但是这个距离还需小于一个门限值,否则测试视频不属于任何样本视频。

5 算法实现与结果

笔者等人开发了一套C/S模式视频识别系统,识别引擎可对实时流和静态视频文件进行识别,图2所示为系统检索终端,其中包含视频节目选择与播放、识别参数设置、树状结果显示与验证等功能。

为验证实时识别算法,采用实时MPEG-2 TS流信号来进行算法测试。用计算机在本地产生TS码流信号,然后实时采集进计算机进行内容识别。分别录制了2 h的CCTV-1(节目1)和CCTV-4(节目2)标清节目,格式为MPEG-2 Q1。从节目1中等间距截取300个时长为10 s的视频片段作为样本视频库,视频尺寸降为CIF。将节目1和2复合在一个TS码流文件里,用TS流发送卡按正常播放速度产生TS码流,然后对这两套节目进行同时识别。实时识别算法中的参数如下:样本视频长L=10 s,识别间隔T=8 s,识别服务器的CPU配置为Intel Pentium IV 2.6 GHz。因为样本视频在节目1中的位置已知,识别错误可作如下统计:如果在节目1预定的时间位置没有检测到相应样本视频,或在节目1和2中没抽取样本的时间点检测到某样本视频,则属于识别错误。两套节目总共进行了1 436次内容识别,统计得到的识别准确率为95.3%,而整个识别过程在节目播完后的6 s内结束。

6 小结

本文建立了一种实时视频识别的算法模型,从理论上证明了该算法能在实时内容场合无遗漏地识别出样本视频的完整内容,实验结果也表明该算法能可靠识别出数字电视TS流中的样本视频,识别准确率达95%以上,且延时较低。本文还得出识别算法计算量与识别时延成反比的关系,即实时性越好,计算量越大。采用的颜色特征和纹理特征统计模型对视频质量变化具有鲁棒性,两种特征的融合获得了较高的视频匹配精度。

参考文献

[1]ZHANG H J,WANG J Y A,ALTUNBASAK Y.Content-based video retrieval and compression:a unified solution[C]//Proc.ICIP'97.Santa Barbara,CA:IEEE Press,1997:13-16.

[2]JAIN A K,VAILAYAL A,WEI X.Query by video clip[J].Multimedia Systems,1999,7:369-384.

[3]杨显锋,尹亚光,袁敏.基于隐含马尔可夫模型网络的视频识别方法[J].电视技术,2007,31(10):74-75.

[4]邱志诚.共现矩阵法纹理的特征计算及分析[J].测绘科学,1985(5):32-40.

自行车流视频识别判断方法研究 第9篇

国外,Messelodi S,Modena CM等人,根据物体的运动方向获取车轮的方向投影特征,提出利用支持向量机分类器(Support vector machine,SVM) 区分自行车和摩托车;Noyce等利用主动红外图像传感器,根据行人和自行车的穿越时间对行人自行车进行分类识别。国内李志慧,赵永华等人提出利用不同尺度的窗口分类器直接探测图像空间是否存在自行车检测自行车方法;盛能,王慧等人通过改进卡尔曼自适应背景模型,提出混合交通流背景下基于面积阈值的自行车车辆技术方法;江晟提出 “像素脚映射”,同时映入了摄像机高度和倾角参数使得视频检测能够适应更广泛的场景;胡宏宇利用运动物体特征和SVM分类器识别固定场景下的混合交通物体,实现行人、自行车、机动车识别;李琦、 邵春福提出了一种基于HSV空间中密码本模型的行人视频检测方法。上述识别方法关键技术是建立合适的分类器,其识别率高低同样受制于检测目标轮廓基本特征参数的合理选取。

本文在现场视频检测获取足够的样本外轮廓数据基础上,主要分析目标轮廓的高、宽、高宽比、 面积等典型轮廓特征值统计规律,寻找出能充分表征自行车目标合适特征的参数,从而更进一步改善复杂交通环境下的自行车识别率偏低的情况。

1自行车轮廓样本数据的获取

为获取充分的样本量,本研究选取了有机非分隔带的城市干路两侧非机动车道上的自行车流作为检测对象。具体方法是:检测点设在车道上方约6m高处,同一测点架设2台摄像机以保证纵向视野覆盖约100m的范围;为获取不同检测条件和交通环境条件下的目标,选择了有路侧树阴影、不同背景对比度,流量较大的路段,采用不同拍摄高度及侧向角度的地段地点进行检测,获取到大约4h视频。在获得视频资料后进行如下处理:

1)目标检测识别前的图像预处理;

2)进行图像分割,融合背景与帧差分算法的图像分割算法;

3)采用合适的边缘检测算法获取视频帧目标, 并进行目标外轮廓标记。本研究采用基于神经网络的边缘检测算子优化方法。通过对前面视频的分帧提取目标边缘,获取的有效自行车目标为16 366个。

为了方便获取更进一步的特征数据,这里采用矩形来标记自行车外轮廓,每个矩形在图像中位置用其左上角坐标值(x,y)表示,且设每个目标轮廓的宽度为w个像素,高度为h个像素,则轮廓面积A=w×h。以下宽度、高度、面积单位均为像素,根据透视几何关系,图像平面笛卡尔坐标体系以图像的左上角为原点,X轴从左向右增大,Y轴自上向下增大,如图1所示。获取的数据如表1(ID号表示目标轮廓序号)所示。

2数据统计分析

单目摄像设备标定技术是目前 视频检测研究的前沿问题之一。无标定视频检测 系统会造成较大目标识别误差甚至失效。根据视频成像原理,图1中自行车从远端进入画面直到骑出画面底端,随着Y值增大,目标外接轮廓尺寸也不断增大;其轮廓面积绝对值由目标与摄像设备距离、安装位置来决定。通过对大量样本统计分析找出不 标定设备情况下能较好表征自行车的具体特征值,来改善视频检测系统对自行车的识别精度。

具体分析思路为:对表1中的特征值利用SPSS和MATLAB软件分析每组数据的高、宽、面积以及高宽比的相关关系(见表2),通过分析找出最能反映自行车外轮廓特征的特征值及方法。

2.1基于SPSS系统的原始数据有效性分析(剔除离差大于3δ的数据)

通过以上描述统计分析:宽度的均值为26.08, 均值的标准误差为0.07,高度的均值是28.85,均值的标准误差 为0.126。高度较宽 度更离散 但都较小,表明抽样的误差较小,可以满足分析要求;宽度的标准差为8.989,高度的标准差为16.068,远高于宽度的标准差,表明在视频数据获取过程高度的误差较宽度要大;在视频检测的过程中,自行车的高、 宽理论上符合正态分布。图2和图3分别为宽度和高度的频率直方图,较为直观地发现高度更接近正太分布,宽度误差较大。数据统计分析可以初步判断高度要大于宽度,在后面的数据拟合中会做进一步的验证。

进一步通过MATLAB分析高、宽之间的残差分布图(见图4)。横坐标表示数据量,纵坐标表示残差分布,得出绝大部分残差的范围在零线周围,即根据“3δ”法大部分数据是合理的。

2.2自行车轮廓数据回归分析

本文对自行车数据的处理思路如下:

1)通过判断得知x坐标与自行车高、宽以及y坐标与宽度并无显著关系,在此不做研究;

2)接着进行y坐标与高度相关性分析;

3)利用获得数据计算每组数据对应的面积,并利用SPSS分析坐标与面积是否存在相关性;

4)在上述研究过程后分别分析所有数据,剔除离差大于3的数据,通过高度和宽度间的相关性得出相应结论;

5)通过判断高度、宽度与面积都是正相 关性, 在此不做研究;

6)利用获得数据计算高宽比,并分析高宽比的变化关系;

7)通过上述分析最终得出结论。

分析得到y坐标与高度的关系,如图5所示。

从图5可看出随着y的增加,高度整体呈增加趋势,利用MATLAB做稳健回归(剔除异常数据之后),得回归方程为

通过观察可看出分布较为离散,但由于数据量大仍可看 出在黑线 周围是最 集中的,利用MATLAB稳健拟合函数可以得到较为客观的回归线方程。但仍不足以利用高度的变化识别自行车。

根据分析得出坐标与面积的关系,如图6、图7所示。

通过以上分析发现位置坐标与 自行车的宽度并没有明显相关关系;X坐标变化与面积也没有显著的相关性,只有坐标Y与高度和面积间有一定的线性关系,其中原因上文已提到。从理论上讲,高度、宽度随着自行车不断向前移动是逐 渐增加的, 且高度和宽度是同时变化的,即假设高宽比是一定的,基于上述假设作如下分析。

利用全部样本数据的高、宽做MATLAB散点图、线性回归、95%置信区间,如图8所示。

图8中横轴代表宽度,纵轴代表高度,红色的点表示所有数据的离散状态,蓝线代表MATLAB线性回归的直线,两条绿线 代表在95% 的置信区 间范围。

利用MATLAB回归得到的直线方程为

R检验值为0.483,回归效果并不是很好,主要原因有以下几点:

1)自行车本身具有的以上各种特性 使得所获得的数据偏差较大;

2)在视频识别过程中由于背景图像 干扰导致识别不准确;

3)视频识别一次会拍摄到不止一辆 自行车的运动,而每辆车的高宽都是不一样的,在高宽比一定的假设条件下,会出现不止一条平行的 真值线, 这也导致了检验的“不准确”;

4)其他方面的一些原因。

通过以上原因 分析,可知有部 分数据是 错误的,在分析过程的应该剔除掉,按照常用的拉依达方法(3法),剔除错误数据后,再利用MATLAB做回归,如图9所示。

在剔除错误数据后得到的回归线方程为

R2检验值为0.576,明显要优于第一次 回归, 如果排除上述分析原因3)的影响,R2会更高。从上述线性回归模型可以预测自行车尺寸,进而更准确地识别自行车。

在图10中得到回 归模型直 线方程的 斜率为1.242 6,即高宽比为1.242 6,在图9中得到回归方程的斜率为1.111,可以看出高宽比基本满足在一定的假设范围中。为进一步验证假设是否成立,用Excel计算出每组高宽对应的高宽比,利用MATLAB做回归分析,如图10所示。

通过图10得到的稳健方程可知直线斜率为0, 即高宽比满足最初假设:高宽比是一定的,直线截距为1.15,即回归得到的高宽比为1.15,综合上述分析,高宽比的范围可定为1.11~1.24间,为自行车识别提供数据支持。

3结束语

由于摄像机假设高度、侧向角度的不 同,检测获得路段上的自行车轮廓长宽尺度会产生变化;另外,在检测路段上自行车由远及近骑行,它的高度和宽度在图像上显示会逐渐变大且轮廓面积会不 断增大。这样就导致不同场景、不同位置摄像机检测出的结果误差较大。本文通过已获得自行车流轮廓尺寸数据,验证在不同交通场景的情况下自行车轮廓面积和高宽比哪个指标能更好地区别自行车与行人以及其他非机动车,利用统计分析软件分析数据间的相关性,最终得出自行车高宽比能较好地在不标定摄像机的情况下识别自行车,且分析出自行车高宽比范围在1.11~1.24之间较为合理。

摘要:考虑算法的实时性,交通流个体识别往往采用轮廓特征来描述。由于自行车与行人的很多轮廓特征值相近,在复杂城市交通环境中,从慢行交通流中准确地识别出自行车是目前采用视频检测交通流的难点之一。通过现场视频检测获取足够的样本外轮廓数据,分析检测目标轮廓的高、宽、高宽比、面积等典型轮廓特征,发现目标轮廓高宽比特征能较好地识别出行人、自行车等慢行交通,并给出合适的取值范围。研究表明自行车高宽比能够较好地成为视频识别的依据,为自行车视频识别提供数据。

关于新闻视频主题识别与跟踪的研究 第10篇

一、主题识别与跟踪的简要概述

美国国防高级研究计划署最早提出了识别和跟踪主题这一概念,也就是说彻底抛弃传统的人工干预操作,完全使用自动化模式用于对新闻数据流及其主题进行合理判断[1]。最初识别和跟踪主题的目的主要适用于寻找主体之间的一致性,利用系统对两件事之间的界进行自动判断,故而区分出出现的新事件以及再现的旧事件。后期随着科学技术的不断发展进步,识别和跟踪主题也得到了深入细化,被分为了如表1所示的五个任务。

二、切分新闻报道

所谓切分新闻报道具体来说就是指将从同一个信息源当中获得的语言信息流分割成为若干个不同的新闻报道。由于新闻专线当中的文本信息流,从本质上来说就是呈现出单个报道形式,因此只有在处理来自广播、电视等传统媒体音频数据的过程当中才会涉及切分新闻报道[2]。通常情况下,若干条不同的新闻报道组合在一起构成一段完整的新闻节目,但是通过观察可知,几乎没有任何新闻节目会用分隔标记用以区分不同的报道。好比说人们常常能够在某一篇报道当中发现商业广告的存在等等。而需要被切分的语料或数据,有可能是音频记录,也有可能是利用语音识别功能后将音频记录转化形成的文字记录。

三、识别新事件

所谓的识别新事件,其根本目标就于能够发现以往从未出现过或是从未被讨论过的新闻主题,有可能是地震、海啸,有可能是发射导弹、卫星,也有可能是某个八卦娱乐新闻等等。通常情况下此类新闻主题还兼具用于识别主题系统的测试功能,这主要是由于识别新闻主题系统的重要基础就是对每一个新闻报道当中是否讨论新话题进行判断。现阶段人们习惯使用向量或分布概率的形式用以识别新事件。具体来说就是指在概括每一篇新闻报道时都会借助于向量或分布概率形式,其最终形成的集合表示新闻主题的所有特征,而一旦出现新报道,将会比较以往报道的所有特征集合与现在新闻报道的特征集合,并且将其作为判断新主题是否参与讨论的重要依据[3]。也有部分研究人员认为利用单纯的比较文本相似性方法很难完成调整参数、提高系统性能的任务,因此还需要寻找其他方法。

四、识别新闻视频主题

识别新闻视频主题指的就是通过对新闻视频进行深度识别,最终将主题内容归拢到与之相对应的主题库当中,结合实际情况可以适当建立全新的新闻主题。从本质上看,识别新闻视频主题几乎和无指导的聚类研究一模一样,即面对新闻视频的主题数量、出现时间等系统无法进行预测,只能有限的向前看。通常意义上的聚类等同于将全局信息也就是整个新闻数据集合进行聚类,但识别视频新闻主题时则是使用增量方法完成聚类。这也正意味着,只能向前看到有限的文本、报道才能进入最终的决策环节。作为一种增量式的聚类,人们习惯于将识别新闻视频主题分成两个阶段:第一个阶段为识别新事件是否出现;第二个阶段为对于新闻视频中出现的主题归拢至相应的主题库当中。显而易见,在第一个阶段当中,就是识别新事件的发生。识别新闻视频主题其实也是将识别新事件进行自然的扩展[4]。但是,二者之间存在明显的区别,即在第一个阶段当中系统只负责在新闻视频当中识别出主题,若这一任务无法得到有效落实将会引发严重的后果;而在第二个阶段当中需要将新闻视频中的主题进行识别并且归入到主题库当中,即使无法在视频当中识别出主题也并不会引发严重后果。

五、跟踪新闻视频主题

跟踪新闻视频主题具体来说就是在给出某一主题当中的一个或几个新闻报道视频,之后将输入进的相关新闻报道与新闻视频主题进行有机整合。在此过程中首先需要给出一组样本报道,通过训练最终得到一个主题模型,然后在后续跟踪报道的新闻视频当中识别出所有与目标主题有关的新闻视频。由此我们可以看出,跟踪新闻视频主题与通过查询例子和过滤信息的相关研究有着异曲同工之妙但是在目前跟踪新闻视频主题当中之后很少的已知训练正例,并且与新闻主题有关的新闻视频通常会集中出现在某一段特定的时间段。值得注意的是,在跟踪新闻视频主题的过程当中训练使用的视频数量,测试语料、使用语言质量等均会对追踪任务产生不同程度的影响。随着科学技术水平的不断提高,跟踪新闻视频主题的系统也得到了相应的发展,即使在某些特定领域当中也可以得以运用。相信再经过几年的发展,跟踪新闻视频主题的正确率将会得到进一步提升。

六、结论

总而言之,本文通过从切分新闻报道、识别新事件、识别新闻视频主题以及追踪新闻视频主题等几个方面进行简要分析,帮助人们对新闻视频主题的识别追踪产生一个大致的了解,但是由于当前在相关方面的研究少之又少,因此本文还有许多不足之处,还需得到进一步的完善和研究。

摘要:伴随着通信技术和多媒体的飞速发展,人们能够用于表达、传递和存储信息的手段也越来越多,与此同时人们每天需要接触的信息数量也正呈爆炸式增长,因此在新闻领域当中研究关于自动识别、分析以及检测追踪新闻视频的方式方法具有极其重要的现实意义。本文将以此为基础,简要探究关于新闻视频主题的识别与跟踪。

关键词:新闻视频主题,识别,跟踪

参考文献

[1]吴玲达,文军,陈丹雯,袁志民.新闻视频主题识别与跟踪技术研究综述[J].计算机科学,2015,06:5-10.

[2]文军,吴玲达,曾璞,栾悉道.关于新闻视频主题识别与跟踪分析研究[J].软件学报,2016,11:2971-2984.

[3]朱旭东.关于新闻视频主题识别与跟踪的研究[D].西安电子科技大学,2015.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【视频识别】相关文章:

基于视频的人脸识别综述09-14

人脸识别技术在视频安防系统中的应用09-11

模式识别实验识别字母03-08

模式识别储层识别07-24

识别距离05-07

车型识别05-14

事件识别05-16

实时识别05-19

识别材料05-22

油层识别05-23

上一篇:曲率分析下一篇:我国生物技术发展现状