视觉显著范文

2024-05-11

视觉显著范文(精选5篇)

视觉显著 第1篇

1 模型

模型的输入是数字彩色图像, 利用高斯金字塔生成不同的空间比例 (金字塔通过低通滤波对输入图像进行二次抽样) ;高斯金字塔包含9个等级, 提供水平和垂直图像的换算系数:从1:1 (等级0) 到1:256 (等级8) 。利用中心-边缘 (center-surround) 算法计算每个特征, 与视觉感受野相类似, 采用细致的和粗糙的标度来实现:感受野中心的像素相当于金字塔比例C={2, 3, 4}, 而周围区域的比例为s=c+d, d={3, 4}, 这样每种特征产生了6幅特征图像。图1为模型实现过程框图。

1.1 初级视觉特征提取

利用r、g、b代表输入图像的红色、绿色和蓝色通道, 亮度图像。利用高斯金字塔将亮度图像变为I (s) 。在最大亮度10%以上的区域, 利用I对r、g、b通道进行规范化。为了将色调从亮度中独立出来, 生成4种基本颜色通道 (其中Y代表黄色通道)

利用这4个颜色通道可以生成4种高斯金字塔颜色通道:R (s) , G (s) , B (s) , Y (s) ;利用高斯滤波从0°、45°、90°和135°对图像进行选择性方向滤波。由于标准不同 (中心采用细致标度和周围采用粗糙标度) 使亮度对比、红绿色、蓝黄色和4个方向各产生6幅特征图像。一共产生42幅特征图像。

1.2 显著图像

显著图像的目的是计算图像可视区域每个位置的显著程度, 并控制对当前位置的选择。

1.2.1 信息融合

将不同特征图像结合起来的难点是:它们代表着原始的不可比较的特征, 有着不同的动态量程和提取机制。同时由于要将42幅图像进行合并, 显著目标可能仅在几幅图像中非常明显, 可能被其他大量图像噪声或次显著目标所掩盖。

前面给出了最简单的合并方案:将每幅特征图都归一化至固定的区间, 然后将所有图像进行加法操作, 这种方法在复杂背景显著目标识别中效果不是很明显。一种可行的改进方法是通过显著目标识别案例学习, 采用线性图像和权重的方式。这种方法的缺点是:当图像发生较大改动时, 需要学习大量的目标识别案例。

文中提议一种简单易行的方法, 全面推进包含小部分非常显著区域图像的显示, 同时全面抑制大部分区域中包含类似峰值响应的特征图像。这种内部特征比较方式与电生理学中的抑制相互影响类似。

模型中的相互作用机理可以做如下概括:每幅特征图像首先归一化至一定的范围内 (0~1) , 从而消除采用不同提取方式所产生的取决于特征的幅度差。然后将每幅图像进行DoG卷积操作。DoG滤波器的部分功能如图2所示, 它在每个视觉位置都产生了强烈的影响, 周围位置对该位置产生较强的抑制和抵抗。在每次反复中, 给定的特征图像都会从先前注意的特征提取阶段收到输入数据 (加入了DoG卷积的结果) 。所有的消极因素都矫正至0, 使迭代过程呈现高度非线性。此过程重复10次。

下面两个例子显示了这一过程的演化 (如图3所示) , 并说明使用10次迭代能够使两幅图片产生足够的区别。正如所料, 具有很多相似显著特征的图像由于相互影响而受到抑制, 而拥有一个或几个最初强峰的图片得到增强。需要注意的是, 此功能内的空间竞争机制, 类似于一个“赢家通吃” (winner-take-all, 简称WTA) 的网络, 它允许整个视觉场景内存在少数分布的赢家。

当一个 (或几个) 位置引起较强的反应时, 它们会抑制比它们弱的其他地点;几次反复后的净结果是增强了最初的位置 (S) , 抑制了较弱的位置。当没有显著位置时, 所有地点发送和接收大约相同数量的抑制;这种情况下的最终结果是, 逐步成为对所有地点的抑制 (即全局抑制) 。经过标准化、图像的亮度、颜色、方向特征映射归纳为3个独立的“显著图”, 即亮度图、颜色图和方向图。

1.2.2 WTA网络

根据定义, 在任何时候, 最大显著性的神经活动是在图像最突出的位置, 即关注的焦点 (FOA) 。源于生物机理的赢家通吃 (WTA) 网络能够探测到FOA。WTA是一个比显著图更快的整合和预警2D层神经元。为了创建FOA的动态变化, 而非每次稳定降低最突出的位置, 有必要对显著图中目前的空间位置进行瞬时抑制。这也防止FOA立即回到以前所在的显著位置。人类也存在这样一个“返回抑制”机制。

由于没有建立基于自上而下机制的模型, FOA简单地代表一个圆盘, 其半径是固定的, 为输入图像长或宽 (其中较小者) 的1/12。选择时间常数、电导、模拟神经元的阈值, 使FOA从一个突出的位置跳跃至下一个, 仅需要30~70 ms (模拟时间) , 原来位置受到500~900 ms的抑制 (这是一个生理物理学现象) 。

2 结果分析

44幅原始图片和数据来自于DISSTAF (distributed interactive simulation, search and target acquisition fidelity) 。每幅图的拍摄视角为6.9×4.6°。每个场景都包含任务目标, 观察距离从860~5 822 m。展示给观察者的图像大小为6 144×4 096像素。62位观察者年龄在18~45岁之间, 视力为1.2以上。在测试之前, 先让观察者对包含类似军事目标的图片进行观察和分析。图片展示过程中, 当观察者发现目标后会马上按下按钮, 并指出在哪个位置发现的目标 (图像被划分成10×10的网格状) 。

模型的输入也是同样大小的图片, 但是却不需要进行预先实验。处理这些高分辨率的图像时, 模型构建了3亿个模拟神经元。利用高速处理器处理每幅图的时间大概为15 min。关注焦点 (FOA) 为半径340像素的圆。利用FOA覆盖全图需要123次移动, 而随机搜索则需要61.5次。图4~图6展示了目标搜索的例子。

图4a中人眼观察发现目标时间均值为2.8 s;图4b中模型在瞬时发现目标。对模型进行时间尺度划分, 平均每秒钟都会有2~4次的注意力转移, 考虑到人眼1.5 s的反应滞后, 模型应该在2.2 s内发现目标。

图5a中人类发现目标的平均时间为12.3 s;图5b为模型预测, 由于背景对比度较低, 目标要比建筑物的显著度低很多。模型开始序列搜索并发现目标, 时间大概为4.9 s (时间尺度同图3) 。

图6中观察员发现目标的平均时间为8.0 s;而该模型未能找到目标, 其位置由白色箭头指出。仔细观察图片可以发现目标的特征尺寸与图像其他部分非常相似, 如灌木和矮树。因此目标一点也不突出。

模型通过第一注意发现了44幅图片中的7幅;很快又在23幅图片中发现目标 (FOA移动数不到20) ;在11幅图片中发现目标时所用FOA移动数超过20;在3幅图片中未发现目标。总体来说, 模型在发现目标方面表现相当好, 在很多搜索过程中FOA移动数远远小于61.5 (除了6幅图像) , 但是这6幅图片中的目标相当小而且不显著, 非常难发现。

下列分析生成如图7所示的曲线:首先, 当模型在2 000 ms模拟时间 (大概是40~80个FOA移动) 内尚未发现目标时, 或者超过一半的观察者未发现目标时, 部分局外图像就会被丢弃, 文中共有8幅图片被舍弃。模型模拟过程大概是每40 ms移动一次, 而人类是每秒钟移动3次, 从而将模型的时间尺度和真实时间统一。另外由于人类的观察有时间滞后, 约为1.5 s。有了上述的标准化过程, 在对36幅图像的分析中, 人类和模型的最快反应时间均为2 s左右, 最慢为15 s。图7中箭头a表示图4中的显著目标, 而箭头b表示图5中较难发现的目标。

从图7中很难看到人类和模型在搜索时间方面的联系。然而, 模型在发现目标方面要强于人的观察, 大概在75%的图像中, 模型均比人要先发现目标。为了使模型发现较快的比例降到50%, 必须假设人类每秒钟注视点的移动次数不多于两次, 在快速搜索的情况下, 这种速度有些不切实际的慢。

3 结论

结果表明:相对简单的处理机制 (基于早期视觉皮层架构的关键组织原则) 与单一显著图相结合, 在复杂场景和人为场景目标探测中效果非常好。

模型的关键是使用返回抑制和提取独立的显著性特征尺寸、及其经典搜索行为与人类心理物理学特征吻合。使用合理的模型, 以人类的时间尺度, 模型在36幅研究图像中的75%都比人类更快找到目标。这种优越性能的解释可能是:在自然场景的观察中, 自上而下模式的影响发挥了重要作用。自上而下模式按照逐步构建整个场景的心理表征使人类注意力发生偏移。文中的模型, 缺乏高层次的知识和以一个纯粹的自下而上的方式运作。这表明, 某种情况下, 这种高层次的知识会干扰最佳性能。例如, 人类观察员经常趋向于观察道路或其他结构, 或者有意识的决定彻底检查显著建筑物的周围地域, 而车辆目标可能就在另一个领域或者在森林中。

虽然模型的最初设计不是用于检测车辆, 研究结果表明, 模型观察到的车辆目标相当“突出”, 具有进一步的研究价值。

摘要:从人类视觉机制出发, 围绕方向、亮度和色彩等特征, 介绍了计算机视觉显著性实现方式和视觉模型。成功通过人为和天然刺激相结合的方式, 将该模型充分应用于目标探测。利用模型对数据库中包含车辆的背景图片进行观察实验发现, 在75%的图像中, 计算机模型要比观察员先发现目标。结果表明该模型更适用于显著目标的探测。

关键词:显著图,目标探测,WTA

参考文献

[1]Guo bei-yuan, fang wei-ning.Physiological fatigue determi nation based on percentage of eyelid closure with eye track ing system[J].Chinese Journal of clinical Rehabilitation, 2005, 9 (7) :26.

[2]Itti L, Koch C, Niebur E.A model of saliency-based visualattention for rapid scene analysis[C]//IEEE Trans Patt AnalMach Intel, 1998, 20:1254-1262.

[3]Sillito A M, Grieve K L, Jones H E, et al.Visual corticalmechanisms detecting focal orientation discontinuities[J].Nature, 1995, 378:492-497.

[4]靳薇, 张建奇, 张翔.基于视觉注意力模型的红外目标检测[J].红外技术, 2007 (12) :720-723.

[5]桑农, 李正龙, 张天序, 等.人类视觉注意机制在目标检测中的应用[J].红外与激光工程, 2004, 33 (1) :38-41.

[6]Itti L, Gold C, Koch C.Visual attention and target detectionin cluttered natural scenes[J].Optical Engineering, 2001, 40 (9) :1784-1793.

[7]Sun Y, Fisher R.Object-based visual attention for computervision[J].Artificial Intelligence, 2003, 146 (1) :77-123.

[8]Itti L, Koch C.A comparison of feature combination strate gies for saliency-based visual attention[C]//in SPIE HumanVision and Electronic Imaging IV, San Jose, CA, 1999 (inpress) .

[9]Tsotsos J K, Culhane S M.Modeling visual-attention via se lective tuning[C]//Artif Intel, 1995, 78:507-551.

[10]Barun J, Julesz B.Withdrawing attention at little or no cost:detection and discrimination tasks[C]//Percept Psycho, 1998, 60:1-23.

[11]Koch C, Ullman S.Shifts in selective visual attention:to wards the underlying neural circuit[C]//Hum Neurobiol, 1985, 4:219-235.

视觉显著 第2篇

多波段图像融合可以有效综合各个波段图像中包含的特征信息。针对可见光和红外图像,提出了一种结合红外图像视觉显著性提取的双波段图像融合方法,一方面旨在凸显红外图像的目标信息,另一方面又尽可能的保留了可见光图像的丰富细节信息。首先,在局部窗口内实现红外图像的显著性图提取,并通过窗口尺寸的变化形成多尺度的显著性图,并对这些显著性图进行最大值的优选叠加,以获取能反映整幅红外图像各个尺寸目标的显著性图;其次,通过结合显著性图与红外图实现显著性图的加权增强;最后,利用增强的红外显著性图进行双波段图像的融合。通过两组对比实验,数据表明该方法给出的融合图像视觉效果好,运算速度快,客观评价值优于对比的7种融合方法。

关键词:

图像融合; 红外图像增强; 视觉显著性

中图分类号: TN 911.73文献标志码: Adoi: 10.3969/j.issn.1005-5630.2016.04.005

Abstract:

Dual-band image fusion is able to well synthesize the feature information from the different bands.To fuse visible and infrared images,in this paper,an infrared image visual saliency detection-based approach was proposed.This method aimed to highlight the target information from infrared image,meanwhile preserve abundant detail information from visible one as much as possible.Firstly,visual saliency map was extracted within a local window,and multiple window-based saliency maps could be obtained by changing the size of local window.And the final saliency map was generated by selecting maximum value,and this map could mirror all target information in the infrared image.Secondly,the saliency map was enhanced by combining infrared image and the previous saliency map.Finally,the enhanced saliency map was used for dual-band image fusion.Comparing with other seven methods,the experimental results demonstrate that the proposed approach could rapidly produce fused image with good visual effect,and the objective evaluation is better.

Keywords:

image fusion; infrared image; visual saliency

引言

图像融合旨在将不同图像的信息进行综合,以便进一步的理解和处理。20世纪90年代以来,图像融合技术在军事探测、医疗成像、图像水印等方面都有着广泛的应用[1]。通常情况下,红外传感器检测到发热的区域一般是人们关注的目标物体,但其保持图像细节的能力较差,而可见光图像则包含丰富的细节信息,因而两者互补可以有效综合信息。

较为常用图像融合方法是基于多尺度分解的思路,包括拉普拉斯金字塔变换(LP)[2]、双树复小波变换(DTCWT)[3]、非下采样轮廓波变换(NSCT)[4]、Curvelet变换[5]等方法。这些方法需要进行上采样和下采样,使得图像中的细节容易被平滑。NSCT具有多尺度、多方向选择性、多分辨率分析和平移不变性的特点。但变换过程中各部分的系数选择仍是一个问题,计算速度也相对较慢。

随着神经科学、心理学等学科的发展,在研究人类视觉机制的过程中视觉显著性和视觉注意的概念被提出。观察者能够利用视网膜中央凹的高分辨率感知机构,主动地探索环境中的重要视觉信息[6],即人眼视觉系统(human visual system,HVS)。视觉显著性反映的是视觉系统从场景中提取一系列视觉信息的能力,其能够像滤波器一样选择感兴趣的信息。由于视觉显著性的提取能够自动化地代替人眼视觉系统快速准确的搜索到场景中的显著目标,其产生的显著性图能够反映人眼视觉系统对不同场景的关注程度,这些都使得视觉显著性的研究具有广阔的应用前景。

在上述研究的基础上,国内外科研人员提出了利用视觉显著性进行图像融合的方法。华中科技大学的陈艳菲等人通过在红外图像和可见光图像中分别提取视觉显著性的方法对双通道图像进行融合,取得了优于传统图像融合方法的结果[7]。浙江大学的研究人员也结合视觉显著性与NSCT进行图像融合[8],也取得了较好的成果。

受到上述方法启发,本文提出了中心周围像素差异计算局部显著性图,并变化局部窗口尺寸以实现图像的不重叠的显著性提取,能够有效的凸显不同尺寸目标的信息;在进一步增强显著性图的基础上,实现了基于显著性图的红外与可见光图像的融合。通过实验结果的对比分析,本文方法融合效果好,计算速度快。

nlc202309090229

1视觉显著性图提取

对于图像,通常以视觉显著性图来量化表示关注程度的不同,该图的值分布在[0,1]之间,值越大表明人眼越关注该区域。当前,主要利用计算机算法模拟人眼来产生视觉显著性图。因为中心周围像素差异越大的区域,人眼关注的程度越高,所以引入局部窗口概念,使用该思路计算局部显著性图。

对于某一幅图像P,设它对应的显著性图为Sal_P。那么,取一个以(x0,y0)为中心像素,大小为i×j的矩形区域,定义(x0,y0)处的像素值为P(x0,y0),显著性值为Sal_P(x0,y0),计算式为

式中:Mean(ij)为该区域内所有点的像素平均值,该窗口i×j的位置在图像中是任意的,那么将窗口在整幅图像内逐个像素滑动,如图1所示,最终获得与原图P等尺寸的的显著性图Sal_P。局部窗口的尺寸对应于图像中同等尺寸的目标尺寸,取多个尺寸不同窗口可以覆盖不同尺寸的目标。因此通过选择窗口尺寸以重复获得不同结果的显著性图,再将各显著性图叠加并归一化处理以保证显著性图的准确性,也能辅助实现各窗口边缘处平滑过渡。

可见光图像(VI)往往拥有丰富的细节成分,红外图像(IR)则凸显热辐射强的区域,但对其他区域的细节保留较差。如果融合时红外图像的低热辐射区域参与融合,会引入冗余信息导致可见光图的部分细节信息丢失,融合效果较差,因此需要抑制低热辐射区域的显著性,增强高热辐射区域显著性。对于显著性图及红外图像中同坐标的任意一点(x,y)有

式中:S_IRmap为通过节1所述方法获得的红外图像显著性图,IR为红外图像,F_IRmap为经过增强后的红外图像显著性图。通过显著性图与红外图像相乘能够有效的抑制低热辐射区域的显著性。同时为了增强保留的显著性区域,用图2所示的对数变换模型对显著性图进行灰度拉伸。

2.2显著性融合

在本文方法中,根据红外图像的显著性进行融合,可以有效地避免红外图像中冗余信息的引入。红外图像的显著性图遵循以下融合规则

式中:Ffusion为融合结果,IR为红外图像,其中每个点的融合权重值为F_IRmap中对应点显著性值,VI为可见光图像,其对应点权重值为(1-Ffusion)。实验证明按权重融合能够有效地将红外图像中显著性区域融合到可见光图像中,同时尽可能多的保留可见光图的细节信息,使可见光图像信息不被破坏的同时凸显出红外图像的信息。按权重进行融合计算,过程简单、计算量小,能够有效地减少运算时间。

3实验与分析

本文实验采用的图像来自国际通用数据库,两组图像如图3所示,图3(a)与(b)为测试图像1的红外图与可见光图,像素尺寸为320×250;图3(c)与(d)为测试图像2的红外与可见光图,像素尺寸为320×320。

在最终的实验对比中,窗口尺寸选择的规则如下。本文分别选用与原图大小相等的窗口,长、宽各为原图1/2大小的窗口,长、宽各为原图1/5大小的窗口。基本可以保证显著性图的准确性,且窗口边缘过度也较为平滑。

本文中使用的对比方法为现在较常见的一些方法,其中包括拉普拉斯金字塔变换(LP)[2]、低通滤波金字塔变换(RP)[9]、离散小波变换(DWT)[10]、双树复小波变换(DTCWT)[3]、非下采样轮廓波变换(NSCT)[4]、Curvelet变换[5]、平均融合(Average)。为便于比较将基于视觉显著性的算法简称为SF。

所有运算均在同一台电脑上运行,配置1.6 GHz四核CPU,6 GB运行内存,使用MATLAB 2012b。

3.1融合效果评价

采用3种无参考质量评价方法对融合图像进行质量评价,作为主观评价的对应参考,这3种无参考的评价方式分别是信息熵,标准差与空间频率。信息熵是反映一幅图像信息量大小的量,信息熵越大表明信息量越大,相对图像质量也就越好。标准差是反映图像对比度的量,标准差越大表示图像对比越明显,图像也就更清晰。空间频率是反映一幅图像的活跃程度,空间频率越大表示图像越活跃,图像融合质量也相对较好。

3.2融合结果与分析

各算法融合结果如图4与图5所示。从主观上观察,SF即本文方法给出融合图像视觉效果最佳,保留了较多的原始图像的信息,视觉对比也最好。

本文采用了信息熵,标准差与空间频率三个融合评价的指标,此外,运算时间也是衡量一个算法优劣的重要指标,运算时间越短则运算效率越高,算法越好。

客观评价数据如表1与表2所示。根据两组客观评价数据的对比,本文所采用的方法融合结果的3个客观评价指标更佳,证明其在信息量、清晰度以及空间频率等指标方面优于其他算法。在对比数据中,发现低通滤波金字塔(RP)的空间频率值也比较大,仅次于SF方法;综合融合结果图以及空间频率的数学概念分析,这个评价值较高的原因在于低通滤波算法无法剔除高通噪声,造成融合结果空间频率值较大。此外,从运行时间上进行对比,发现本文算法也具有明显优势,仅次于最简单的平均融合方法。

4结论

本文根据红外图像与可见光图的特点,提出一种针对红外图像视觉显著性区域的双波段图像融合算法。利用人类视觉系统的注意机制提取红外图像的显著性图,再经过增强等处理将显著性图作为可见光图与红外图像融合的权值,对可见光图与红外图进行加权融合。根据实验对比分析,本文所采用算法能够有效的保留可见光图像的细节成分、融合红外图像的显著性区域同时抑制红外图像冗余信息的引入。结果表明,本文方法能够使融合图像具有较好的视觉效果,客观评价值高,运算速度快。在接下来的工作中,需要对该算法作进一步的改进优化,以适应不同的场景需求,并进一步实现硬件化。

参考文献:

[1]李茜,郭佳,郭小云.基于边缘检测小波变换的红外与可见光图像融合方法[J].光学仪器,2013,35(1):18-21,29.

[2]BUTT P,ADELSON E.The Laplacian pyramid as a compact image code[J].IEEE Transactions on Communications,1983,31(4):532-540.

[3]KINGSBURY N.Image processing with complex wavelets[J].Philosophical Transactions of the Royal Society of London A:Mathematical,Physical and Engineering Sciences,1999,357(1760):2543--2560.

[4]DA CUNHA A L,ZHOU J,DO M N.Nonsubsampled contourilet transform:filter design and applications in denoising[C]∥IEEE International Conference on Image Processing.Genova:IEEE,2005,1:I-749-752.

基于时空视觉显著性特征的行人检测 第3篇

关键词:行人检测,视觉显著性特征,空洞填充,HOG特征

行人检测是图像处理与计算机视觉领域中备受关注的研究课题之一,同时也是智能交通和驾驶辅助系统的重要组成部分,快速准确的行人检测机制能够为智能车辆的安全驾驶和自主导航提供关键技术和安全保障。现有的行人检测方法可以分为三类[1]: 基于模板、基于模型和基于学习。其中,基于模板的检测,求解人体模板的过程较为复杂; 基于模型的检测,虽采用了已建立好的模板进行匹配,但易受光照以及行人姿态变化的影响; 基于学习的检测,先提取人体各特征,后利用模式识别的方法进行分类。其中最为常用的是基于梯度方向直方图( Histogram of Oriented Gradient,HOG) 特征描述行人的方法,但该方法所提取的特征向量维数较大,使得计算量也较大,严重影响实时性,加上线性SVM作为弱分类器进行级联训练后,虽节省了时间,但却需要在整个图像区域内进行匹配,严重影响实时性与精确性。

在机器视觉领域,研究者们对视觉注意机制的兴趣与日俱增,该机制可以从大量的视觉数据中确定出最相关的部分。Itti[2]等人于1998 年,根据早期原始视觉系统的神经网络结构和行为,率先提出了视觉注意机制模型的概念,并在2001 年度Nature上对该模型理论作了进一步完善。文献[1]将经典的itti模型引入到行人检测中,在一定程度上能够实现准确的行人检测,该方法克服了HOG行人检测算法加入SVM分类器之后需要对整个区域进行检测的缺陷,但是,采用RGB颜色空间处理图像,处理结果受到了影响。文献[3]将背景差分法与Itti模型有效地结合在一起,实现了对海底弱小目标的检测,相比较常规背景差分,该方法能够更好地检测到不清晰的目标。文献[4]对Lab颜色空间进行了相应的介绍,并将其与其他颜色空间进行了比较,结果表明,Lab空间更接近于人类视觉机制。

针对上述不足之处,本文对Itti模型中的颜色空间进行相应的改进,获得颜色、亮度、方向等空间特征显著图,同时将基于时间的运动特性引入该模型中并对前景图采用基于轮廓搜索的空洞填充法进行处理,得到基于时空特征的总显著图,获得感兴趣区域( Region of Interest,ROI) 。然后,在ROI内利用行人分类器进行检测。

1 基于HOG与SVM的行人检测

HOG特征是一种局部区域特征描述,通过统计和计算局部区域上的梯度方向直方图来构成特征,且对光照变化和小幅度的偏移不敏感。结合支持向量机( Support Vector Machine,SVM) 训练得到的弱分类器可实现人与非人物体的准确判断。

1. 1 HOG特征计算

在HOG特征提取之前,首先,对图像进行灰度化处理,然后,采用Gamma校正法对输入图像颜色空间进行归一化处理,目的是调节图像的对比度,抑制光照变化、阴影及噪声干扰等所造成的影响。具体步骤如下:

1) 在简单梯度算子[- 1,0,1]下,计算水平方向梯度值、垂直方向梯度值和梯度方向角。

2) 把样本图像划分为若干个像素单元( cells) ,并对所有像素的梯度幅值进行直方图统计。

3) 将几个cells组成一个block,并将block中的所有cells特征描述符串联得到HOG特征描述子。

4) 将图像内的所有block内的HOG特征描述子串联得到图像的HOG特征向量。

1. 2 检测过程

线性的SVM分类器是用来完成数据集分类的最简单常用的方法之一。首先,从训练集中提取HOG特征,将得到的特征向量作为已训练完成的SVM分类器的输入,在整幅图像范围内判断图像中是否有行人。对于与人体样本相似的非人样本,在初始训练中很难分辨,易产生误判,同时由于行人姿态,及外界环境中干扰的存在,即使训练的分类器性能良好也会产生漏检、误检。因此,有研究者提出先对视频图像做背景滤除[3],然后再做检测。本文正是在此基础上引入了Itti的改进模型,并对得到的前景图做了相应的填充。

2 视觉显著性的计算

视觉注意模型模仿的是人类的神经系统机制,通过神经网络竞争机制及对各特征的整合得到部分感兴趣区域。其中Itti模型是该领域较为经典的检测模型之一,因其简单高效等特征而被研究者们普遍采用。该模型采用自底向上的机制来计算视觉显著图,从图像的特征出发,不依赖于任何先验知识。基本思想是:首先,提取图像的颜色、亮度、方向特征,采用金字塔滤波得到各特征的尺度空间表示,然后采用中央强化周边抑制的方法计算不同尺度空间的特征差异,最后进行归一化,合并特征显著图,得到总显著图。

2. 1 提取颜色显著性

在RGB颜色空间中采用R,G,B三种颜色来描述输入图像,且其亮度和颜色之间存在着一定的关系,因此人们感觉到的并不是颜色而仅仅是亮度。而Lab空间[4]将亮度和颜色分开来表示,L通道没有颜色,a和b通道有颜色。研究表明,Lab空间更接近于人类视觉感知系统,且调节简单,速度快。

从RGB空间转化到Lab空间的方法如下: 首先,对输入的彩色图像提取R、G、B三通道值,归一化颜色值到[0,1]区间,如式( 1) 所示

令X,Y,Z,为由RGB空间向Lab空间转化的中间变量,具体过程如式( 2) ~ ( 7) 所示

其中,fx,fy,fz的计算详见文献[4]。

2. 2 提取亮度和方向显著性

首先,将图像分解为一组特征图,从特征图中分别提取亮度特征I,方向特征O[5]。具体计算如下

其中,R,G,B分别为彩色图像像素的RGB值; I为通过式( 7) 求得的亮度值,G( ·) 表示Gabor滤波; θ 表示局部方向; θ∈{ 0°,45°,90°,135°} 。

显著性区域指的是与周围区域相比差异明显的区域,按照中央强化四周弱化的机制对图像的颜色、亮度、方向等特征图进行处理。用不同尺度的图像相减来模拟图像四周与中心的差分,可得到不同尺度下的视觉刺激图[6,7,8,9]。不同尺度的图像做差分运算得到相应特征的显著图,如式( 9) 所示

其中,c∈{1,2,3},s∈{3,4,5}。“Θ”表示差分运算。首先采用插值法对不同尺度的两幅图像做插值得到相同尺度的图像,再逐像素进行减法运算,然后将各特征图归一化。

各个尺度的特征图相加得到相应特征的显著图,如式( 10) 所示

最后采用求均值的方法将其融合为一幅图像获得总显著图,如式( 11) 所示

图1 为采用上述方法得到的各特征分量的视觉显著图。

3 实现结果与分析

为了证明本文算法的有效性,选取了INRIAPerson行人数据库中的部分行人图片及PETS2001 中的一段标准视频在MATLAB2010b环境下进行实验,部分仿真结果在VS2010 结合Opencv2. 4. 1 环境下完成。静态图片中,行人姿态各异,数量不等,使用传统算法检测,误检较大; 而视频中摄像头和行人之间的距离随时间变化,且行人特征包括了正面、侧面以及转身等不同情况,存在一定的检测难度。最后,将本文算法与其他相关算法的结果相比较。比较结果如图2 ~ 图3 所示。

为便于更好地了解算法的性能,行人检测算法通常使用漏检率( false negative rate) 和误检率( false positive rate) 来评定算法的优劣性。 误检率定义如式( 12)

误检率定义如下

表1 给出了本文算法与HOG算法在静态图片中的检测性能比对信息; 表2 给出了本文算法与其他相关算法在视频中检测性能的比对信息。其中,误检率和漏检率均指所有帧中的最大值。

从表中比对数据可以看出,本文算法在行人数目、姿态以及外界环境发生较大变化的情况下,相比HOG算法具有较高的准确率。

4 结语

文中引入视觉显著性特征,提取视频图像的颜色、亮度、方向等特征,融合后得到总显著图; 采用三帧差分法和基于轮廓搜索的空洞填充法对前景目标进行处理,结合总显著图得到ROI; 最后,采用基于SVM的HOG检测在ROI内检测行人。实验结果及相关分析表明,本文算法在目标发生旋转、大小变化时相比较其他两种算法具有更高的准确率,但对于漏检现象效果不理想,且随着行人数目的增多,环境的复杂化加剧。今后研究的重点会针对以上不足,结合多种有效的特征提高算法的有效性和准确性。

参考文献

[1]张艳军,邓永生,田甄.基于视觉注意机制的行人检测方法[J].科技视野(高校科技),2015(15):98.

[2]ITTI L,KOCH C,NIEBUR E.A model of saliency based visual attention for papid scene analysis[J].IEEE transactions on pattern analysis machine and intelligence,2002,20(1):1254-1259.

[3]王秀芬,王汇源.基于背景差分法和显著性图的海底目标检测方法[J].山东大学学报(工学版),2011,2(41):12-16.

[4]龚涛,刘怡,黄自力,等.基于相关配准的帧间差分算法[J].电视技术,2014,38(1):195-197.

[5]周文明.动态场景下基于空时显著性的运动目标检测方法研究[D].上海:上海交通大学,2011.

[6]白晓方,杨卫,陈佩珩.一种改进的运动目标检测与跟踪方法[J].电视技术,2014,38(1):180-182.

[7]DALAL N,TRIGGS B.Histograms of oriented grasients for human detection[C]//IEEE International Conference on Computer Vision and Patten Recognition.[S.l.]:IEEE Press,2015(1):886-893.

[8]曲永宇,刘清,郭建明.基于HOG和颜色特征的行人检测[J].武汉理工大学学报,2011,4(40):134-137.

视觉显著 第4篇

关键词:电视制导,视觉显著性,地标选择,航迹规划

引言

电视制导导弹作为一种空地精确制导武器, 具有命中精度高、威力大和射程远等优点, 已成为现代空战中打击敌方纵深战略目标的重要手段之一, 人工参与的电视末制导方式是其中主要方法之一。完成精确打击的关键在于两个核心环节:一是在确定了目标点的情况下, 综合考虑导弹机动性能、地形高程、障碍、威胁以及飞行任务约束条件等多种因素, 选择合理的起始点;二是在起始点到目标点的飞行路径中, 尽可能设计若干有效的地标点, 以满足飞行员视觉判断需要, 合理判断和调整导弹飞行方向, 以提高打击精度。

目前公开的飞行器航迹规划方法中, 大多假定起始点和目标点已事先给出, 其间路径的地标点为已知, 但如何在明确目标点的前提下, 获取有效的攻击通道和典型的地标点序列, 尚有许多问题亟待解决。鉴于视觉主观判断在前述工作流程中的重要性, 引入视觉显著性计算, 在视频序列中间断地提取显著地物 (对应为地标点、对应帧为显著帧) 作为候选地标序列是一种可行的分析思路。目前主流的显著区域检测算法, 文献[1]将其分为三大类:第一类方法从候选区域内部提取显著特征, 如Kadirt[2]方法。第二类方法从候选区域与外界的比较中提取显著性特征, 以Itti[3]的中心-周边算子为代表。第三类从候选区域内部和外部提取显著性特征, 这类方法将上述两种特征结合起来作为候选区域的显著性特征, 如Priviterat[4]方法。

本文尝试以高分辨率遥感图像数据为分析数据源, 提出了一种简单的基于视觉显著性度量筛选地标序列的方法, 在一定几何约束关系下以目标点为中心, 导弹飞行航迹距离为半径的限定扇区中, 自动检测候选地标点, 通过显著性综合度量函数, 评估攻击路径的有效性, 实现在有效扇区内选择有效攻击起始点并确定攻击通道, 并给出地标序列的功能。典型实验验证了方法的有效性。本方法可作为人工选择攻击通道和地标点的辅助工具, 缩小候选范围, 提高工作效率。

1 地标显著性度量方法

1.1 视觉显著性

注视 (Attention) 机制的研究表明, 人类视觉在描述场景时往往将注意力集中在某些明显与众不同、视觉效果突兀的区域, 这种特性称为视觉显著性[5]。例如, 在图1中, A要比其他部分更加突出, 能够迅速引起观察者的注意。这种突出性就是视觉显著性, 突出性较强的A部分就是该图像的显著区域。

1.2 遥感图像定义地标显著性

研究表明, 位于图像中心位置且与周边亮度差异较大的区域容易引起观察者的注意。基于这一特性, 考虑遥感图像的特点及计算复杂度和实时性的要求, 我们把位于图像中心、与周边视觉反差大、容易识别的地物作为候选地标点。根据上述思想, 鉴于视频序列图像数据量大的特点, 为减少计算量, 选取灰度值作为其特征, 通过地物显著性度量参数进行度量, M值越大显著性越强, 反之显著性就越弱。相关公式如下:

式中:M (f) 表示第f帧图像的显著性度量值, 表示第k个窗口内的平均灰度值, 表示第k个窗口外的平均灰度值。

1.3 给定路径的综合显著性

对给定路径 (明确始点、终点的前提下) , 在提取了序列地标后, 可通过设计综合显著性度量函数评估该打击路径的有效性, 这样可为在限定扇区中找到最优攻击路径提供客观判断依据。

首先生成给定路径遍历帧, 帧图像的显著性度量值M (f) 由 (1) 式计算得到, 形成该路径视频序列显著值曲线图, 再由2.3节地标筛选算法, 找到该路径上的地标点, 地标点始终处于曲线图的峰值位置。给定路径的综合显著性体现在两个方面:一是该路径的平均显著性度量值;二是地标点所在帧的显著性度量值 (图中圆圈所处的峰值点) 与其前后显著性谷值 (黑点所处位置) 的差值的平均值。综合以上两个因素, 可得到如下计算公式:

式中:CH (N) 表示通道综合显著性度量值, K表示地标点个数, p (j) 表示当前地标点的显著性峰值, L (j-1) 表示前一显著性谷值, L (j+1) 表示后一显著性谷值, f表示视频帧数, M (i) 表示显著性度量值。

2 攻击通道自动筛选方法

2.1 成像几何参数

导弹飞行过程中, 弹载摄像机不断拍摄战场视频图像, 摄像机拍摄到的战场范围是由其成像几何[6]决定的, 它对于地标选取具有非常重要的作用。假设导弹飞行高度为h, 摄像机此刻所处位置的俯仰角为α。

又已知相机可视角度为γ, 则可根据几何关系计算得到前沿宽度分别为D1, 视场纵深L。计算公式如下:

2.2 候选攻击通道划分

以可行攻击候选扇区为研究对象, 导弹从弧线上的任意点出发飞向目标点都是安全的, 沿摄像机主光轴方向将扇区划分成N条候选攻击通道 (CH (1) 、CH (2) …CH (N) ) 。候选攻击通道划分得越密, 相互交叉的部分越多, 划分数量也就越多, 找到的地标点也会越多, 但计算量越会很大;划分得越疏, 候选通道就越少, 找到的地点标也就会越少, 计算量也会越小。因此, 基于以上问题, 我们按照下列方式进行划分:从扇区的某一边开始, 把该边作为导弹的飞行路线, 根据 (2) 式计算得到的后沿宽度D1为范围划分导弹飞行通道, 再间隔D1/2的宽度作为飞行路线依次划分, 这样相邻两条通道相交部分为后沿宽度D1的1/4, 目标始终处于各通道的中心位置。

将N条通道分别生成视频帧图像, 生成的视频帧数f根据导弹的飞行速度v、导弹起始点到目标的距离d、每秒采集帧数m确定, 则:

同时, 可以计算得到视场纵深L所包含帧数为:

2.3 地标筛选

地标的筛选必须满足以下三个条件:

(1) 为保证地标在视频中稳定可见, 必须要求含地标视频帧的帧数n在一秒所采集帧数m中超过一定比例, 则:

即:视场中至少要保证存在一个地标且要持续数帧, 且当临界状态出现, 一个地标即将消失时, 下一个地标要出现, 这样才能避免地标丢失。

(2) 要突出地标显著性, 便于人眼识别, 即显著值M (f) 要大。

(3) 地标点数目要合适, 不能选得太多, 选得太多, 相邻地标点之间距离太近,

为了满足以上条件, 我们采用以下四个步骤进行:

step1根据 (1) 式对各个通道的视频帧图像进行显著性度量, 计算每帧图像的显著性度量值M (f) 。

step2将每个通道f帧图像的显著性度量值M (f) 形成显著性曲线图, 横坐标表示帧数, 纵坐标表示显著性度量值, 这样就形成了N条显著性曲线图。

step3找到曲线上的各个峰值点p (j) 和谷值点L (i) , 把峰值点作为候选地标。

step4从第一帧开始, 先在T帧内找到一个峰值最大的点p (j) 作为第一个地标点, 为了减少不必要的地标, 与前一个地标点间隔T/2帧, 在j+T/2至j+T帧内找一个峰值最大的点作为下一个地标点, 通过同样的方法依次找出后面所有的地标点。

2.4 攻击通道选择

由1.3节计算得到各条路径的综合显著性度量值后, 找到综合显著性度量值最大的一条路径作

为最终的攻击通道, 公式如下:

3 实验结果及分析

假设导弹飞行高度h=600m, 飞行速度v=250 m/s, 视频采集帧频m=5帧/s, 摄像机俯角=18o, 摄像机可视角度为γ=17.5o。实验用地图为Google Earth下载的某地区高分辨率全色数据, 限定某候选扇区在40o度范围内, 选取10条候选通道, 按照成像几何关系仿真生成视频序列图, 每条通道生成180帧灰度图像。按照上述方法, 通过仿真, 下面是其中3组典型地标筛选结果对比分析, 图中x坐标表示视频帧数, y坐标表示显著性度量值, d圈住的峰值点为地标点所在帧。

由图7、8、9和表1可以看出, 第一候选通道筛选了11个地标, 但160-180帧之间没有地标, 存在地标丢失现象;第二候选通道筛选了11个地标, 但其第2、6、7、10、11个地标点的峰值不够明显, 显著性不强;第三候选通道选择了13个地标点, 峰值明显的点全部被选中。通过 (2) 式计算得到三幅图像的综合显著度值分别为:1.1179、1.0991和1.1305, 根据 (8) 式得出CH (3) 选择的地标点显著性程度更高。同时, 通过三个候选通道的地标帧图像对比也可以发现, 第三候选通道优于第一、二候选通道。图10是第三候选通道找到的地标视频帧图像, 位于帧图像中心位置的地物 (即地标点) 亮度与周边差异较大, 易于人眼识别, 因此选择第三候选通道为最终的攻击通道。

4 结语

本文提出了一种基于视觉显著性的空地电视制导导弹攻击通道地标选择算法。该算法在地标筛选, 攻击通道选择方面得到了较为满意的结果。本文算法在复杂背景和较强噪声干扰的情况下, 还有待进一步改进。

参考文献

[1] 张鹏, 王润生, 静态图像中的感兴趣区域检测技术[J].中国图像图形学报, 2005;10 (2) :142~148

[2] Kadir T.Brady M.Saliency, scale and image description[J].International Jour-nal of Computer Vision, 2001;45 (2) :83-105.

[3] Itti L, Koch C.Computational modeling of visual attention[J].Nature Reviews Neuroscience, 2001:2 (3) :194~230

[4] Privitera C M.Stark L W.Algo-rithms for defining visual regions-of-interest:comparison with eye fixations[J].IEEE Transactions on Pattern Analysis and Machine Intelligenc, 2000;22 (9) :970~982.

[5] 王璐, 蔡自兴, 未知环境中基于视觉显著性的自然路标检测[J].模式识别与人工智能, 2006, 19 (1) :100~105.

[6] 李永宾, 黄长强, 郝晓辉, 对电视制导空地导弹巡航飞行高度的分析[J].导弹学报, 2001:13 (4) :82-87.

视觉显著 第5篇

随着我国航天事业的发展,卫星遥感图像数据量急剧增长,这给遥感图像的存储及传输均带来了极大的挑战。为了解决高保真数据编码与有限带宽之间的矛盾,基于感兴趣区域(ROI)的图像编码技术成为可行的解决办法。近年来,图像编码技术[1]取得了很大的发展,涌现出了一大批优秀的算法,如JPEG、EZW、JPEG2000等。在JPEG2000中,提出了两种标准的ROI算法,一种是基于偏移的一般算法,另一种是最大位移法(Maxshift),它们均是通过按照比例缩小背景系数(BG)而实现的。在此基础上,Zhou Wang等人提出了逐个位平面偏移算法[2,3],达到了灵活控制ROI与BG质量的目的。2003年,Lijie Liu等人提出了一种部分位平面偏移算法[4],实现了对ROI系数的进一步细分。2005年,梁燕等人结合上述算法提出了一种通用部分位平面偏移算法[5]。2006年Libao Zhang等人通过将位平面划分为交互部分和补偿部分,提出了一种交互补偿位平面偏移算法[6]。可以看出,基于JPEG2000的位平面偏移算法是目前ROI实现的主流。但是,位平面的偏移必然导致编码位平面的增加,从而带来编码效率的降低;其次,JPEG2000算法在带来极佳的编码效率同时,也导致了庞大的计算量和很高的算法复杂度,难以实时实现。CCSDS组织在2007年发布了面向空间应用的专用图像编码算法[7](CCSDS算法)。该算法编码性能较佳,编码过程较为简单。因此,在目前航天数据传输系统中得到广泛应用。国内外许多学者针对CCSDS算法进行了深入研究[8,9,10,11],但是,对于CCSDS算法中的感兴趣区域压缩算法研究较少[11]。

为了解决卫星应用中高保真遥感图像传输与有限带宽之间的矛盾,本文提出了一种CCSDS算法中基于视觉显著性的感兴趣区域图像编码算法。感兴趣区域信息可通过视觉显著性提取算法自动获取;较少的模板信息传递提高了编码效率;CCSDS算法的编码框架简化了算法的计算复杂度。因此,本文算法能较好地适用于卫星应用场合,从而为未来卫星应用搭载高分辨率的成像载荷提供较好的技术支撑。

1 CCSDS中的位平面编码算法

文献[7]提供了一种适合于空间图像压缩的位平面编码算法。实验表明,该算法具有较好的编码效果,而且算法简单,复杂度低。算法中,对于采用三级小波变换后的图像数据,采用树状结构构成组成如图1所示的编码块结构,此编码块为编码时的基本单位。

在位平面编码的过程中,首先需要对所有DC系数进行Rice差分编码。编码时,首先需要根据小波系数计算一个截断阈值q,DC系数大于q值的位平面将进行差分编码,如图2所示。

在Rice编码之后,将对所有的AC系数以及DC系数剩余位平面进行位平面编码,如上图所示,编码扫描从位平面BitDepthAC-1开始,到最低位平面0结束,每个位平面在扫描过程中都将经历stage 0~4五个编码步骤。关于每个编码步骤的实现细节可参看文献[7]。

2 基于视觉显著性提取的感兴趣区域图像编码算法

2.1 基于视觉显著性的图像感兴趣区域自动提取技术

在感兴趣区域编码算法中,首先要选定感兴趣区域,这就涉及到ROI区域的提取问题。ROI的提取方法大体上来说可以分为两种:

第一种方法是通过用户介入,由用户自己在图像中标定,这也是最常用的一种方法。这种方法可以很好地选择感兴趣区域,但是不适合于我们的应用。另一种方法是通过计算机自动识别并标定感兴趣区域。但是,如何正确高效地识别出ROI区域是一个相当困难的问题。在已知的研究领域中,可以通过目标识别的方法,利用各种特征分割出目标,从而确定ROI区域。但是,如何将这种方法应用于提取ROI区域,存在如下两个问题:第一,在确定ROI区域之前,首先需要确定感兴趣的具体目标,因此只能应用于特定场合;第二,目标识别系统规模庞大,复杂度高,耗时长,并且无法保证识别结果的正确性。

为了设计出简单有效的系统,国内外学者对此做出了一定的研究[12,13,14,15]。但是,上述方法要么适用范围较窄,只适用于特殊的应用场合;要么效果不太理想,仅具有研究意义。

在遥感图像的感兴趣编码应用中,其实很大一部分情况下我们并不清楚我们具体对什么“感兴趣”,那么,在这种情况下,我们又如何提取ROI区域呢?在对任务的分析中我们发现,其实这种情况与我们日常生活中观察事物很类似,我们在对视觉信息的处理中,总是可以很快地找到我们“感兴趣”的目标,尽管在此之前我们并不知道我们对什么有兴趣。如果我们设计的系统能够具有人的这种特性,那么所有问题都能迎刃而解。

2.2 基于显著图的视觉注意计算模型

Koch等人通过多尺度下初级视觉特征的提取,局部对比度分析及其融合,最终生成显著图[16]。但是,在该模型中,提取了颜色、亮度、方向3种基于视觉特征并采用了Gaussian滤波器以及Gabor滤波器。在卫星应用中,一般处理灰度图像,没有颜色特征,并且由于Gaussian以及Gabor滤波器需要庞大的计算量,不利于在相关设备上进行硬件实现,因此在上述模型的基础上,我们的算法如下:

1)利用小波变换来产生相应的多尺度结构,不使用Gaussian以及Gabor滤波器。在原有模型中,使用Gaussian和Gabor滤波器产生了9个尺度的特征金字塔,然而,相应滤波算法计算复杂度高,如此多的尺度分解过于细化,最低尺度往往只有几个像素。以一幅512×512大小的图像为例,其最低尺度的大小仅为2×2,对于实际计算来说已经没有多大的意义。考虑到如此,在设计相关ROI提取算法时,结合已有的压缩编码算法,并考虑到小波变换的尺度分解效应,我们使用3级小波变换来产生相应的尺度结构。

2)由于一般的遥感图像没有颜色特征,因此,对于特征的选取需要另行考虑。首先,依然选取亮度特征作为主要特征,在这里,由于已有图像为灰度图像,因此,亮度I=f(x,y)。其中,f(x,y)为原始图像。如上所述,通过对原有图像进行3级小波分解,建立了原始图像在小波滤波器下的尺度结构。通过小波分析的知识,我们知道,对图像进行小波变换后,其LL子带为原始图像在低尺度下的近似,而其余高频子带分别代表了原始图像在水平、垂直以及对角线方向的方向信息。因此,我们选取其归一化的LL子带作为亮度特征在低尺度下的图像,选取其余高频子带作为方向信息。然后,我们对亮度特征进行局部中心矩变换,得到三种类型的纹理信息M0,1、M1,0、M1,1,以此作为方向信息的补充:

式中:局部窗口大小为(2w+)1×(2w+)1。通过上述特征的提取,我们得到了不同尺度下的特征图,其中,亮度4幅,方向9幅,纹理12幅。

3)对于相同以及不同特征的融合,仍然采用原算法的“中心-周边”算子和相应融合操作。但是,由于此时尺度数已经大大减少,相关尺度运算中关于“中心”和“周边”尺度的定义已经不再适合,因此重新定义θ运算,其中c∈{0,1,2},周边尺度s=c+δ,s∈{1,2,3},δ∈{1,2,3}。

4)去除WTA网络,在最终显著性映射图的基础上通过阈值分割、形态学“腐蚀-膨胀”处理、孔洞填充以及小区域去除等一系列后处理操作来产生最终的ROI模板。

适用上述算法的感兴趣编码系统框图如图3。从图3中可以看出,在小波变换后,背景轮廓的Rice编码由于是针对整个图像进行的,因此不需要ROI模板信息,此时利用上面改进后的算法可以同步进行ROI掩模的快速计算,并指导接下来的ROI编码工作,大大提高了系统的工作效率。

2.3 基于局部码块优先的ROI编码算法

通过对文献[7]中位平面编码算法的分析,可以发现,算法在位平面扫描的过程中,最基本的单位是一个编码块,如图1所示。这种编码块结构由一个低频子带系数以及相应的零树结构上的63个高频子带系数构成,由于小波变换的金字塔模型,一个编码块实际上对应的是图像中的一个8×8的块,因此,每个编码块实际上具有极大的空间局限性。基于此,本文的感兴趣区域编码方案框图如4所示。

本算法通过提升ROI区域编码块在比特平面编码中的优先级来达到ROI编码的目的,算法简单且易于实现,完全不增加编解码复杂度,其编码过程包括四个部分:1)掩模编码;2)轮廓编码;3)ROI精度保证编码;4)BG编码以及ROI精度提升编码。

整个编码过程是一个对编码图像不断细化的过程,借鉴位平面提升原理图,整个编码过程如图5所示。

1)掩模选取以及编码方法

通过前面章节中的ROI提取算法,根据小波变换后的系数分布生成如图6所示的掩模。图中所示的黑色区域表示ROI区域,相应的,对应区域的小波系数为ROI系数。

在前文所述的位平面编码算法中,采用基于空间方向树的编码块结构。因此,处于LL子带的掩模实际表示了所有处于ROI区域的编码块。基于此,LL子带的掩模为实际有效的掩模,需要对其进行编码并传输到解码端,以便解码端进行同步的解码。

由上述可知,需要进行编码的掩模大小为1/64图像大小,编码时ROI区域用1表示,非ROI区域用0表示。对于8位的灰度图像,采用此种简单编码方式下掩模编码的编码量为整个图像数据量的1/512,如编码区域为规则区域,所需的编码量甚至可以忽略不计。此外,还可进一步通过游程编码降低掩模编码的数据量,提高编码效率。

2)轮廓编码

在JPEG2000的最大偏移法和一般偏移算法中,当压缩码率低于一定程度时,都会出现一种情况,那就是整个重建图像只有前景(ROI)信息,而没有背景(BG)信息。背景信息完全丢失的情况是我们不希望看到的,因为这会导致整体信息的丢失。在这种情况下,ROI压缩已经失去意义,因为我们完全可以只对ROI区域进行无损或近无损压缩,并在传输中只传输这部分信息,从而得到更好的局部压缩效果。

在我们提出的感兴趣区域压缩算法中,首先将对图像的轮廓进行编码,从而在解码端可以对图像进行一种框架性的重建。通过本步骤的编码,可以保证用户得到图像的整体信息,在此基础上,后续的编码再提供ROI与BG区域的细节。这种先考虑整体,再按优先级分别补充区域细节的编码方式跟人的视觉感知过程是一致的,因此可以获得相当良好的主观视觉质量。

在算法中,对图像的轮廓编码是由Rice编码来实现的。通过对所有DC系数,也就是LL子带的所有系数进行阈值截断并进行差分Rice编码,从而在解码端可以得到LL子带的MSB,并利用这个LL子带的近似值对图像进行重建,得到原图的轮廓以及框架。此轮廓框架是原图像的一个模糊表示,丢失了细节信息,但给出了图像的整体信息。

3)ROI精度保证编码

在轮廓编码的基础上,接下来我们对ROI区域的细节进行编码传输,在轮廓图上填充ROI区域的细节。在整个算法中,ROI编码主要是通过优先对感兴趣区域的码块进行编码来实现的。同时,可以通过调整ROI区域内的DC系数以及AC系数的细化编码程度来控制前景-背景相对质量。ROI细化编码程度越高,ROI重建质量也越高,相对的,其占用的码流资源也越多,背景质量也就会相对下降。一般来说,ROI编码时应既保证ROI区域的质量,又要避免其过多的编码冗余,进而过于损害背景质量。

4)BG编码以及ROI精度提升编码

在完成ROI编码的基础上,如果还有剩余的码率,则可以继续对BG区域进行编码,提升BG区域质量,或者对ROI区域剩余位平面进行编码,以进一步提升ROI区域的精度。

3 实验结果及分析

3.1 实验结果

在实验中,我们采用如图7所示的两幅遥感图像作为测试图像,图像大小为512×512。

为了提取出ROI区域,将上述两幅图像利用本文的视觉注意算法进行显著图计算,得到的视觉显著性图如图8所示。

在图8的视觉显著性图的基础上,利用阈值分割、形态学“腐蚀-膨胀”以及孔洞填充等后处理操作进行处理,最终得到的ROI二值模板如图9所示,其中,白色区域为ROI区域。

结合自动提取的ROI模板进行ROI编码,得到的重构图像如图10所示,压缩比为16和32。

上面为本文算法的主观视觉效果,为了能较好地说明本文算法的优点,我们将本文算法与JPEG2000算法中的一般偏移法(模板采用与本文相同的二值模板),文献[11]中的BAO-ROI算法进行对比,通过客观性能指标PSNR进行衡量。在此我们将图像分为ROI和BG两部分,对这两种类型的区域分别计算其客观性能指标,计算结果如表1和表2所示。

(a)Compression ratio of 16;(b)Compression ratio of 32.

3.2 性能分析

从表1和表2可以看出,与JPEG2000的一般偏移算法和BAO-ROI算法相比,本文提供的算法BG区域质量稍弱于前者,但ROI区域质量要高许多,ROI-BG对比更加明显,更加符合人眼的视觉感知,因此拥有更好的主观视觉效果。在压缩比为8时,码率资源相对充足,“目标”区域失真不明显,重建图像整体较好;在压缩比为16和32时,采用一般偏移法,ROI区域质量较差,因此,“目标”区域信息丢失较多。在本文算法中,保持BG信息基本质量的前提下,“目标”区域信息得以较好保持,性能较佳。另外,相对于BAO-ROI算法而言,本文算法需要传递较少的模板信息,整体上提高了CCSDS算法的编码效率;同时,结合了基于视觉显著性的感兴趣区域自动提取机制,算法的灵活性和应用性更强。

而本文提出的多级感兴趣压缩算法相对来说具有如下的优点:

1)算法没有位平面的提升,因此避免了冗余位平面的增加,从而增加了编码效率;

2)算法的流程非常简单,算法的计算复杂度较低;

3)由于保证了基本的背景质量,因此不会出现背景信息完全丢失的情况,并且可以灵活地调整ROI以及BG区域的相对质量,从而获得良好的视觉效果。

4)可对任意形状的ROI进行编码,对于不同ROI,可以选择不同编码精度。

4 结论

本文针对遥感图像在卫星应用中有限信道下高保真传输的需求,在分析现有图像编码算法的基础上,完成了以下工作:

1)提出了适合于CCSDS图像编码标准的ROI编码算法。基于CCSDS标准的编码框架可以降低编码算法复杂度,便于实时实现,适合于卫星应用场合。

2)引入视觉注意机制,采用一种基于视觉显著性的自动提取算法提取感兴趣区域。采用3级小波变换,利用小波低频子带建立亮度金字塔,高频子带建立方向金字塔,引入局部中心矩做为纹理特征。因此,降低了计算复杂度,同时充分跟压缩编码模块契合,取得了良好的效果。

3)通过标示需要优先编码的编码块来确定掩膜位置,有效地节省了码流资源。

上一篇:愈合延迟下一篇:多媒体数据中心