提取关键词范文

2024-07-21

提取关键词范文(精选10篇)

提取关键词 第1篇

本文处理的信息大多是中文文本,因此中文分词这个关键步骤就变的尤为重要。分词算法是中文文本特征抽取的前提,分词的正确与否将对后面的特征值提取产生直接的影响, 常用的分词方法有正向最大匹配、逆向最大匹配、基于理解的分词以及基于统计的分词等。然而现有分词技术存在着很多的难点,最常见的就是中文经典的歧义问题,同样的一句话,根据不同的划分可能产生完全不同的两个意思,如“羽毛球拍卖完了”,可以分成“羽毛球/ 拍卖/ 完了”,也可以分成“羽毛球拍/ 卖完了”。这些语句通过语境人们很容易判断理解,但计算机想做到这一点就相当的困难。因此本文提出了基于TFIDF的关键词提取算法来解决这些问题。

1传统TFIDF算法

一篇文档中提取关键词不能只考虑词频TF,因为有大量的虚词等停词(Stopword)会对特征权重产生干扰。为了减小这些词对文本的影响程度,就需要用到逆文档频率。相对特别的算法征途步骤频段概率反而语言,它能够削弱不是很大的过多数学语文档案中心经常使复用高频频率单步骤词语的重要度,对小部分文档中出现的低频次的重要度进行加强。这样就得到了TFIDF特征权重计划算术公式:

下公式(1)中,tfik为特征项tk在文档di中出现的次数, nk为包含特征项tk的文档数, N为文本总数。为了降低个别高频特征词对其他低频特征词的抑制作用,通常要对特征的权重进行归一化处理,得到TFIDF的归去一化形式:

此时算术加法的核弹中心思想政治在于如次就好,果然这样。某个词或短消息语法不在一篇中文章节。 中国强大出现的频率TF高,并且在其他文本中出现的次数也不少, 则认为这个词或者短语文书籍具体像是有很强的架构。好的私有类似一别处的天气。区分析能源力量,适应到头合计多少用来算术分大类容。

2一种新颖的关键词提取方法

TFIDF算法应用场景非常之多,但也因为广泛的使用, 很多实践者发现了其一些不足的地方,现列出如下:对同义关系不能灵活处理,只能进行机械的统计,最终结果可能会在一定程度上偏离原意;权重的计算结果与文本的信息量相关联,在数据量产生了浮动的时候,所有的权重值都必须得再次进行推算,使复杂程度变大;对于关键词的权重值,往往会比较低,利用此算法进行求值,由于特征词在众多文章信息中出现,最后可能会得出它的权重值为0,这与本身的实际情况不符。

按照上面给出的不足,我们采用词频(Tc F)的n次方法求根代替TF来对TFIDF进行改进,这样若某文本中词a的出现频率是词b的两倍,词a对于该文本的重要性只是词b的倍,改进后的TFIDF公式为:

式(3)中,参数n(n  1) 用来调节词频的影响,对于词频大的词,n的取值较小;对于词频小的词,n取较大的值, 这样可以减弱词频的影响。

针对TFIDF的不足,本文提出了一种基于相同的词进行替换,相邻的词进行合并的关键词提取算法,假设某个文档文本d,对于这个文档d的特征词的关键词提取算法过程如下: 对整篇文本信息熵档d进行分别取提数动词等海语以后,去掉其中的stopword ;语以后计算出文本信息档d中国发展所有的特别征兵的动诗词,以t , t ... t进行表示;对于步骤(2)中12n的每个特征词ti的同义词进行替换,替换为ti;对文档d中每个特征词ti的TF进行统计,并将其加入到集合W中;设i 0 ; i i 1 ,当i大于阈值len,则跳转到步骤(10), 否则,统计出集合W中每个词q它在文档d中前邻后邻的分部,并判断是否具有频繁前邻和频繁后邻,例如可以根据某个前邻PR出现的概率大于0.5来认定它是一个频繁前邻。 len通常取3或者4;若词q不具有频繁前邻和频繁后邻, 则将q放入到特征词候选集合S中。若q同时具有频繁前邻PR与频繁后邻BE ,则将PR q BE合并成一个词加入到集合W* 中,如若q只具有频繁前邻PR ,则将PR q拼成一个新词加入到集合WPR中,若只具有频繁后邻BE , 则将q BE加入到集合WBE中;对比WPR和WBE中的词, 将共同出现的词放入到特征词候选集S中,并将其从WPR和WBE中移除;令W S W *WPRWBE,清空W* 、 S 、 WPR、WBE、 W集合,转至步骤(6);利用公式3计算出W中每个词q的权重;按照集合W中词q的权重大小输出特征词及权重。

按照上述步骤,就可以自动提取出一篇文档中的众多关键词,供决策者进行分析,例如对表1中文本内容进行测试, 流程图见图1。

通过表2的数据可看出此算法相对传统TFIDF算法效率提高了很多,大大提高了系统响应用户检索请求的效率和准确性。其中,准确率(Precision)和召回率(Recall)可通过如下公式计算:

3结论

本文提出了一种基于TFIDF算法同义替换和相邻合并的文本挖掘技术,可以降低服务器计算压力,使用户可以更快更准确的从知识库中寻找出相关信息。

摘要:企业知识库数据量以爆炸性的速度增长,其中大部分信息是非结构化的文本数据,系统往往不能快速准确地满足企业用户的查询请求。为解决这一问题,提出了一种基于TFIDF算法同义替换和相邻合并的文本挖掘技术。这种技术可以降低服务器压力,使服务人员可以更快更准确的从知识库中寻找出相关信息。最后以实例验证了本算法的有效性。

提取关键词的答题方法 第2篇

山东临沭一中朱孔玉

提取关键词的题型初次出现在2005年全国高考试卷(1)中,原题目如下:

18、提取下面一段话的主要信息,在方框内写出四个关键词。(4分)

据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

[分析] 什么是“关键词”?新版现代汉语词典对此是这样解释的“(1)指能体现一篇文章或一部著作的中心概念的词语。(2)指检索资料时所查内容中必须有的词语。”依照这里的解释不难理解,提取关键词,说到底就是要善于提取“核心信息”,是一种压缩信息类的题型,考查学生提取关键信息的能力。

[解题方法] 做这类题目,首先要分清语段的类型,看是记叙性语段,还是议论性语段,还是说明性语段。

如果是记叙性语段,首先要找出叙述的对象是什么,文段围绕这个对象说了什么事,最后的结果如何或者影响如何,然后在这基础上再提取关键词;如果是议论性语段,首先要找出语段的观点是什么,围绕此观点分别使用了哪些论据,然后在此基础上再提取关键词;如果是说明性语段,就要首先找出说明的对象是什么,文章对此说明对象说明的特征是什么,然后在这基础上再提取关键词。

提取完成后要检验,方法是把提取到的关键词连结成句,如果能够体现短文的主要内容,就可以认定是符合要求。

上面2005年全国高考试卷(1)中文段可以看作说明性语段,说明的对象不难看出,前面是说“古籍”,后面是“人才”,围绕“古籍”说的是它的“修复”,围绕“人才”说的是其“不足”,我们可以把这些词连接成:(馆藏)古籍(亟待)修复,(但这方面)人才(严重)不足。这一句子基本能概括选段的内容,所以按照要求答案就可以表述为:古籍 修复 人才 不足。

另外解答此类题目还可以先压缩语段再提取关键词。拿过一个语段先压缩概括其内容,这应不是什么难事,平时语文课堂中的压缩概括文段内容、提炼文段观点、归纳段落大意等,都是我们经常做的。还是上面所给的材料,一共两句话。第一句话又分为两个层次:先说国家图书馆馆藏古籍修复的专业人员不足;再说各地图书馆、博物馆同样面临古籍修复人才不足的问题,其中“不足百人”,表明这方面专业人才奇缺。第二句话是算了一笔账,同样说明了古籍修复人才不足的问题。

这段话的中心可以压缩概括为“馆藏古籍亟待修复,但这方面人才严重不足”。然后再进行提取,抓住主要信息就能找出“古籍、修复、人才、不足(缺乏)”这四个关键词。

2006年,提取关键词又一次出现在广东高考卷中。

提取下面一段话的主要信息,写出四个关键词语。(4分)

从甲骨文到草书、行书的各种书法艺术,间接的反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想像力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也是一些讲书法的文章里常说的“舍貌取神”——舍弃客观事物的具体现象特征,而摄取其神髓。

按照上面的解题步骤,很容易找出书法、意象、舍貌取神三个词来,由于题目要求是四个,所以可将“舍貌取神”替换为“体味”和“神髓”。

[巩固训练]

提取下面一段话的主要信息,写出四个关键词。新华网西昌10月24日电(记者贾永、白瑞雪、孙彦新)“嫦娥奔月”,这个千古流传的神话,正在成为中国航天的现实。

24日18时05分,中国第一颗探月卫星嫦娥一号在西昌卫星发射中心成功升空。海拔1500米的西昌,有着“月亮城”之称。火箭升空的那一刻,西沉的夕阳和火箭喷出的烈焰在天幕上组成了一幅奇妙的图景。18时29分,嫦娥一号离开托举她的长征三号甲运载火箭,进入近地点205公里、远地点50930公里的超地球同步轨道,开始了100多万公里的奔月之旅。未来两周内,卫星将经过4次变轨、2次-3次中途修正和3次近月制动,最终建立起距月球200公里的环月轨道,对月球开展科学探测。在这个与地球最近的星球上,至今还没有中国人的足迹,却有一座以人类飞天第一人——明朝人万户命名的环形山。绕月探测工程总指挥栾恩杰表示,嫦娥一号的成功发射,标志着中国的深空探测正式启动。

旅游网络舆情中关键词的提取方法 第3篇

【关键词】旅游;关键词;舆情

一、前言

网络新媒体解放了人类的嘴巴,逐步消解新闻制造者与新闻阅读者之间的鸿沟,让每位新闻阅读者都拥有在公共领域自由表达的平台,打破传统媒体”一对多”的传播霸权,不再是媒体一家之词,新闻阅读者也可以制造传播新闻,形成了”多对多”的传播格局,新闻阅读者生产、新闻内容共享、自由的意见交流为特征的网络新媒体时代。

二、发现处理旅游网络舆情的重要性

在旅游过程中,网民总会遇到各种各样的问题,会听到或看到各种各样的现象,则不可避免的在网络空间针对这些听到或看到遇到的各种现象和问题发表意见,争取权益,建言献策,交流思想、抒发感情。通过新闻评论、论坛社区、博客空间、即时通讯、微博和微信等网络新媒体形式,网民可随时爆料、由此产生新闻话题。不同意见观点进入网络这个自由市场,有些尖锐的意见之间形成博弈、交锋、碰撞,与此同时,网络新媒体与传统媒体互相对接、引用和报道,传统媒体越来越将获取新闻线索和素材的重点放在网络新媒体上,改变着舆论的生成与传播机制,被官方垄断的话语权由于网络新媒体的出现而逐渐被下放和分解,形成旅游网络舆情。旅游网络舆情已成为旅游过程中游客社情民意的集中体现,是旅游管理方探察民情、倾听民意的重要渠道。通过对旅游网络舆情研究,还原游客意见构成、听取游客诉求,有利于及时发现问题、化解矛盾、释放压力,实现旅游市场的良性健康发展。旅游网络舆情作为我国现阶段最集中、最接近真实的游客民意代表,为旅游管理部门审视政策利弊得失,提供了成本低廉、反应快速的平台。某种程度上,旅游网络舆情代表的游客民意已成为旅游管理部门制定政策的民间智库。

根据新华网网络舆情监测分析中心、武汉大学、中国社会科学院(2011)的研究结果显示,地区网络舆情事件的发生频率和热度高并不一定对该地形象产生负面影响,然而事件处理失当对地区形象的破坏却是巨大的。旅游管理部门对旅游网络舆情事件的应对是影响地区旅游网络形象的关键。重视旅游网络舆情、倾听游客民意诉求、善用网络建构和提升旅游地区形象的理念,已被越来越多的地方所接受。

旅游业具有综合性、关联性、依赖性和异地性等特征,当政治、经济、社会、自然等危机事件发生时,旅游业是国民经济最易遭受冲击的行业之一。随着我国旅游产业进入大众化的全面发展阶段,国内旅游规模迅速扩大、出入境旅游均有大幅增长,游客构成更加多样、利益诉求逐步多元,加上网络新媒体和传统媒体监督报道的推波助澜,提高了旅游危机事件的发生几率和破坏程度。这会影响到旅游地区的声誉,也在一定程度上危及整个旅游产业的安全。如上文所述,新媒体时代的危机事件在发生、演化和传播上都与传统媒体时代有巨大差异。因此,要科学有效的应对各类旅游危机事件、修复和维护政府、企业和个人的受损形象,采用网络舆情的监测方法和管理手段必不可少。

三、旅游网络舆情中关键词提取的主要方法

关键词提取主要包括以下几种类别:(1)在基于有监督学习的关键词提取算法中,词频,TF-IDF,N-Gram,词长,出现位置,共出现频率等常常被当做有效的特征加以使用。这种方法主要是对较多的训练语料进行一定的训练,在训练中获得各项系统的相关参数并建立一定的模型,最后利用这种模型对语料库进行测试,从测试中检测此种模型提取关键词的效果,Kea算法是一个基于贝叶斯模型的非常有效的算法。基于“信息增益”(Information Gain)的英文关键词提取系统是以实用性为最终目标的算法,称为KPSpotter。(2)基于无监督学习的关键词提取。Mihalcea和Tarau受Page Rank的启发,把词看做网页,将词与词之间的语义关系看做链接,开发了Text Rank算法。他们提出了自己的短语合并算法。他们先将每个单词作为基本元素参与迭代,迭代完之后,取出排名靠前的一部分词作为候选。如果候选的词在文中相邻,则将他们合并成为短语。基于有监督学习的算法充分利用了各种先验知识,实验结果表现较好。但由于过度依赖训练数据,使得实用性较差。基于图的算法利用词语间的语义相似度建立网络,通过某种特定的规律构建一个比较复杂的网络模型,也取得了不错的成绩。很多工作都注意到了短语级别的关键词的重要性,同时也提出了相应的方法。

四、本文提出的关键词提取算法

给定阈值k, k 为最近邻对象个数

输入: 要聚类的数据集D,参数k

输出: 聚类好的簇列表S

对数据集D,计算所有对象的距离矩阵M,得到词语语义距离后,对所有词语进行聚类。

方法: repeat 判断输入点是否为核心对象P,P∈D

IF P为核心对象{以对象p 建立一个新簇C, 对簇C 内新加入的对象O, O∈C,递归将核心对象继续聚到簇C 中,直到没有新对象加入。

}

ELSE P为非核心对象{

如果P是一个边界对象,P被标记为噪声

}

until 所有输入点都判断完毕

repeat 针对所有核心对象的D领域所有直接密度可达点找到最大密度相连对象集合,合并密度可达对象。

util 所有核心对象的D领域都遍历完毕

输出聚类好的簇列表S={C1,C2,……Cm}

算法的主要思想是通过词语间的语义距离,对词语进行密度聚类,得到主题相关类,并简化参数输入, 同时能够发现空间密度不同的簇。人工对比实验证明了该算法的有效性,有较高的准确率和召回率。

五、总结

加强旅游行业网络舆情引导机制的研究,应用信息化技术加强旅游业网络舆情引导,营造一个有序、繁荣的旅游市场,随着数据挖掘技术等大数据应用越来越多的融入到旅游的各管理领域,通过互联网,指导人们的旅游行为和旅行计划,从而实现方便快捷的智能化感知和交互性旅游体验。今后旅游业还应在网络舆情预警分析的研究和应用方面进行进一步的探索。

参考文献:

[1]李 锋.目的地旅游危机管理:机制、评估与控制[D].西安:陕西师范大学,2008.

[2]吴晓梅.十年发展铸辉煌—十六大以来旅游业发展述评之一[N].中国旅游报,2012-9-12.

[3]刘 栋,张彩环.基于短语的中文标签自动生成混合算法[J].计算机科学,2014.

注:

项目名称:智慧旅游中的数据挖掘算法研究(项目编号:SKL2015C18)。

项目名称:数据挖掘算法在智慧服务中的应用(项目编号:LYC15-16)。

作者简介:

提取关键业务数据中断 第4篇

问题描述

某运营商采集机需要到支付平台FTP服务器提取文件, 在提取文件时, 经常发生采集脚本提取失败并停止运行的情况, 通过总结失败文件, 发现提取失败存在一定的规律, 即文件名称结尾为“227”的文件在提取时都会失败。

应用访问网络路径

下图是和网络人员沟通的网络示意图, 采集主机通过交换、路由、防火墙等网元设备, 与支付平台FTP进行交易数据传输。由于故障现象是数据文件名称发生的变化导致采集脚本终止, 定义为应用层的问题, 我们注意力关注在防火墙等三层以上的设备上, 固将抓包点分别放在了FW-1前、FW-2前、FW-3后, 进行数据包分析。

分析过程

模仿之前故障现象进行测试, 在支付平台上创建一个以“227”结尾的文件, 例如“TEST227.DAT”的文件, 同时在采集主机上运行脚本进行显示和采集。

从抓包点1、2上解码分析数据包payload, 发现要显示的文件名称变为“TEST22_.”, 如下图。这样判断故障点是在右侧, 靠近支付平台这端。

同时, 抓包点3上提取数据包进行解码分析, 需要采集的文件名称仍为“TEST227.DAT.”, 不会发生变化, 如下图。

经过多次试验后发现, 如果采集文件名称为“XXXX227.DAT”, 采集机通过FTP协议显示或提取就会变为“XXXX22_.DAT”, 这时采集脚本会出现异常情况, 造成停止运行, 以后的数据文件不会被传送, 从而产生数据积压。

分析结论

因此, 综上可判断文件名称发生变化的节点在于抓包点2、3之间, 也就是两道防火墙FW-2、FW-3, 由于中间无法镜像流量, 所以初步判断两台防火墙其中之一对FTP数据进行了修改。

通过其他部门沟通厂商分析配置并了解到, FW-3为Check Point防火墙, 由于该防火墙开启了FTP检测, 认为出现227 (文件名称/文件大小) 就是攻击行为FTP Bounce, 导致出现文件名替换问题。

由于国外某著名防火墙厂商对于协议的安全检测选项, 相比其他防火墙都要精细, 在修改对于227的安全检测配置后, 此类问题得到解决。

网络分析价值

提取关键词 第5篇

做了网站,做了百度推广,为什么客户还没有自动上门?为什么成交率这么低?有很多的投资者,在投资百度后都会有这个困惑。其实网络推广中有很多的技巧,只不过可能由于投资者太忙了,也没有时间去打理这些事情,网站的客户体验度,电话客服的话术,网站的打开速度等很多因素都会直接影响到客户对投资者反应的程度,环环相扣,每个环节都很重要。今天我将百度推广中最重要的一个环节拿出来跟大家分享,也就是关键词选取的环节。对了,忘了介绍我自己,我是来自湖北百度总代理的推广专员-郭烨晔。下面进入正题吧!

首先为大家解释下什么是关键词,关键词是我们在推广中经常提到的一个名词,各位站长各位高手,就无需多看这段文字了^.^,关键词在百度推广的过程中是指企业用来寻找潜在客户的特征字、词、句子。网民搜索时,百度会挑选符合需求的关键词,将对应的推广信息展现在结果里。简单来说,关键词就是你每天在凤巢系统里提交的词;你提交了什么词,网民就能通过这个词或跟这个词相关的词找到你网站推广。

因此,关键词,是真真正正打开商机之门的钥匙,非常非常重要。然而关键词的选择绝对不是一件轻而易举的事,要考虑诸多因素,比如关键词是否跟你的网站内容有关?什么样的词搜的人多?有没有词能影响潜在客户对同类产品的偏好,从而激发潜在客户新的需求?所以,选择正确的关键词是一件必须要下苦功的事情。不知道大家这段文字会不会很眼熟,这个是我在湖北百度在培训学习过程中的一段原文,我这里纹风不动的搬了过来,只希望大家能够充分的了解关键词的重要性。关键词的选择在百度推广过程中的重要性不言而喻了,下面将为大家讲讲如何去合理的提取关键词。

百度推广中需要记住的只有六个字:多提词,提好词,

多提词能帮你覆盖更多潜在客户,从而能获得更高的展现机率才更大;不必担心列出的关键词会太多,相反关键词越多,用户覆盖面也越大,也就越有可能获得更多展现机会。提好词能更接近网民需求,这样才能获得更多的成单机会。要仔细揣摩你的潜在客户的心理,好好的想一想他们在查询与你有关的信息时最可能使用的关键词。

那么,什么样的词才是好词呢?

第一,产品词

产品词指指企业提供的产品/服务名称、别称,能体现网民最明确的搜索意图,是企业关键词词库中的必备词。缺少了这类词,将基本不会有想买你的产品的网民找到你,多可怕!

第二,产品咨询词

产品咨询词指用来咨询产品或服务相关信息的,贴近网民口语的词汇、短句。咨询词往往最接近潜在客户的意图,并且容易影响客户的购买决策,是企业关键词词库的明星词。

第三, 品牌词

品牌词是指独一无二体现实力的品牌名称的词. 搜索品牌词的网民,都是带着明确目标来主动寻找你的潜在客户,所以是企业关键词词库至关重要的战略词。

第四:行业词

行业词指表达产品和服务所在类别、体现行业特殊性的词。这类词可能影响潜在客户对同类产品的偏向,启发新的需求;同行业的企业都会提,是企业关键词词库的潜力词网络推广。

效率更高的自动提词帮手

如果以上四种词还不能满足你的需求,推荐你使用为您贴心打造的关键词推荐工具,关键词推荐工具基于百度强大的数据挖掘和分析技术构建,它不仅可以快速帮你找到更多关键词,还能帮你找到其他客户提交的、表现好的词、较少人提交、价格低、潜力大的词 、和搜索意图相关、易被关注的词。

提取关键词 第6篇

伴随被审计单位电子财务账套的普及, 原先依靠翻阅纸质凭证的摘要审查方法已经不能满足信息化环境下审计人员的查账需求,审计人员需要借鉴和吸收现代经营管理技术,把经济活动分析、电子数据分析方法与原来的查账技术紧密结合,才能在有限的人力和时间内,提高审计效率,发现审计线索。 本文介绍的案例来源于Y公司内部审计人员开展日常财务监督的工作实践。

Y公司属于国家计划垄断特色的市级国有商业公司 , 按照地域及县区又划分为12个区局子公司,企业规模较大。 伴随该公司内部审计工作范围的不断拓展, 内部审计部门近几年从传统单一的财务收支审计、 经济责任审计逐渐向管理审计等领域拓展,专项财务审计演变成为日常性审计监督工作,但是经济责任审计及其他专项审计仍需要大量财务数据支持。 在电子财务数据获取方面,Y公司审计人员主要基于实施的用友NC财务软件, 通过分配给审计部门的财务数据查询权限, 直接导出基于EXCEL的明细账加以审查。 审查的原则是各项财务收支的合规合法性、发生金额的合理性,以判断被审计单位或审计责任人是否遵循勤俭节约、 讲究效益的原则, 并出具相应的审计管理建议。 因Y公司内审部门只有3位审计人员,面临人员少、任务重、时间紧的困难,亟待通过计算机辅助审计技术提高审计工作效率。

常见的审计数据分析方法包括账表分析、数据查询、统计分析和数值分析。而统计分析又包括一般统计、分层和分类分析[1]。 其中分类分析,简单理解就是数据细分,是通过数据分布来发现异常的一种常用方法,也是最常用方法之一。 分类分析的做法是选择某一字段作为分类字段, 然后通过观察其它对应字段在分类字段各个取值点上的分布情况来确定需要重点考察的对象, 有助于数据对比和结构分析。EXCEL的分类汇总、数据透视表都可以帮助审计人员完成对某个关键词的分类与汇总, 但对于关键词不明显的数据分析, 则需要构造关键词来帮助审计人员实现进一步分类分析。 我们结合审计人员原有的财务审计经验,充分利用了EXCEL函数和VBA功能实现从简单到复杂的关键词提取,具体包括基于摘要数据特征的地区信息提取、部门信息提取和模糊关键词的提取。

2基于凭证类别的地区名称提取

Y公司的12个子公司不是独立法人 ,不需要进行财务独立核算。 各子司的财务人员通过联网财务软件填写电子会计凭证, 由总公司财务部门在一个账套中统一进行核算, 各子公司的财务信息通过各子公司的凭证类别名称进行区分 (如图1所示)。 当审计人员想对多个子公司的某项支出对比分析, 就需要通过财务软件导出多个地区的EXCEL明细账,再通过复制、粘贴形成一张汇总表,这种做法耗时较长,效率较低。 实际上,我们可以导出某项支出的全部明细账, 依据凭证类别的固定长度来提取地区关键词, 比如利用EXCEL的LEFT函数或者固定分列功能可以轻松获取各子公司的地区名称(如图2所示),进而利用分类汇总功能或数据透视表进行分类分析。

3基于摘要数据特征的部门名称提取

上述地区关键词的提取为各子公司之间经济事项对比带来了便利。 在审计工作中,审计人员还需要对各子公司内部相关部门的收支情况进行对比,特别是总公司15个职能部门的经营费用对比分析。 由于Y公司账套无法将各子公司的职能部门设置为部门辅助核算,在统计各部门费用时,审计人员需要花费较长时间来进行收集和整理。 这里,我们通过财务人员编写凭证摘要的书写规律来提取经济业务发生的部门名称关键词。

Y公司财务人员在编写费用类凭证摘要时 ,基本遵循 “部门名称+经办人+经济业务内容说明”的书写习惯,如图1所示。 摘要中的部门名称基本是按照约定俗成的部门简称, 例如财务部门简称“财务处”,计算机信息中心简称“信息中心”,但是有时不同财务人员对同一个部门的命名简称不一致。 由于部门名称长度或者3位或者4位,故不能采用固定长度分列或LEFT函数取得部门名称,这里推荐运用EXCEL的VLOOKUP函数来实现凭证摘要部门名称关键词提取。

VLOOKUP函数有四个参数 ,其功能是根据查找值在查找范围的第一列搜索查找值, 找到该值后的返回值为: 以第一列为准,往后推数查找列数值的这一列所对应的值,其查找方式既可以是精确也可以模糊,具有非常广泛的应用。 注意,VLOOKUP在实现模糊查找时,查找区域一定要按升序排列。 此处,为提取摘要字符中的部门名称,我们定义VLOOKUP的四个参数:第一个参数的查找值是完整的摘要字符串, 第二个参数查找区域是经过拼音升序排列后的部门名称简写,因查找区域仅有1列,因此第三个参数就是1, 第四个参数将查找方式定义为模糊查找,如图3所示。

按照图3的模糊部门名称查找, 如果查找不成功不会返回 “#N / A”的错误提示 ,而是返回与之最接近的部门名称 ,这会导致后续分类汇总结果的错误。 为避免这类错误,还需要结合IF函数和字符串比较函数EXACT()来帮助审计人员明确标识因书写不规范而提取错误的部门名称,IF判断函数的编写逻辑如图4所示。 然后,审计人员需要通过手工修正不符合习惯的部门名称关键词, 最后利用分类汇总或数据透视表功能对比部门间的收支结构或发生比重,从而锁定审计重点。

4基于摘要业务内容的模糊关键词提取

经过上述地区、部门名称的关键词提取后,如果再进一步, 就是针对摘要经济业务内容的深入分析。 摘要经济业务内容的撰写需要用简单明晰的语言来概括该笔业务的实质和要点,以方便事后的审查与分析。 如图1所示,Y公司摘要内容的前半部分形成了“部门名称+经办人”的书写规范,但是摘要后半部分有关经济业务的书写规范化具有一定难度。 虽然经济业务的多样性导致不可能实现理想的标准化, 但是在这寥寥几字的经济业务描述中,仍然包含十分有意义的业务发生关键词。 例如,Y公司会计科目的 “管理费用—车辆费” 中没有设置下一级明细科目, 财务人员在书写经济业务内容时往往结合原始凭证会说明车辆支出的燃油费、过路过桥费、维修费等等,如果能够将这些关键词提取出来, 就可以把一段时间内的车辆费用进行分类汇总,从而发现异常车辆花销。 又例如Y公司后勤机关食堂的费用支出中,仅涉及“应付职工薪酬 / 员工福利 / 职工食堂经费补贴” 这一个会计科目,在没有健全食堂辅助核算明细账的情况下,该科目明细账就成为分析食堂支出的主要数据分析源, 涉及食堂日常生蔬食品购买、食堂固定资产、临时人员工资支付等多种费用,如果能够从摘要中提取敏感关键词,就能够掌握食堂花销的大概比例,以达到对食堂经营的日常监督目标。 因此,从摘要经营业务中提取模糊关键词,以帮助审计人员掌握数据分布趋势。

由于关键词不固定, 该功能很难通过现有EXCEL函数实现,借助EXCEL的VBA编程功能,由审计人员自定义提取的关键词,及提取后关键词所要放置的位置,以满足不同情况下的模糊关键词的提取需求(如图5所示)。 具体编写过程涉及相对复杂的VBA编写技巧,在此不进行详述1。

5案例总结与评述

审计人员如何通过电子数据特征掌握经营业务发生规律,快速发现审计线索, 直接关系到信息化环境下的审计效果和效率。 在审计软件不能满足审计人员个性化需求, 基本数据库的SQL技能较难学习的情况下 ,审计人员应充分发挥EXCEL自带的查询与分析功能, 通过数据的对比和分类找出经济业务发生的联系,以迅速发现审计线索。 本案例以被审计单位的凭证摘要为分析数据源,运用EXCEL功能实现了由简单到复杂的多关键词提取,具有一定的应用普遍性。 从该案例中,可以学习审计人员如何基于摘要数据特征拓展数据分析思路, 如何充分应用EXCEL函数和VBA功能支持数据分析。审计人员只有结合个人审计经验,充分挖掘电子数据特征,依靠简单易用的计算机辅助审计技术支持,才能够大大缩短审计实施时间,提高审计工作效果和效率。

摘要:审计人员对凭证摘要的审查是当前财务审计遇到最多的情况之一,原先依靠翻阅纸质凭证的摘要审查方法已经不能满足信息化环境对审计人员的查账需求。该案例基于被审计单位电子凭证摘要的数据特征,融合电子数据分析方法与查账技术,通过EXCEL实现多关键词的提取,以更好支持审计人员进一步的数据分类分析。

八角油提取关键技术研究 第7篇

八角茴香 (Illicium verum Hook.f.) 是一种重要的辛香料。其新鲜枝叶或成熟果实经水蒸气蒸馏而得精油称八角油, 为无色或淡黄色的澄清液体, 气芳香, 味辛甜。八角和八角油在食品工业、酿造工业、饮料业、日用化妆品和制药行业中均有广泛的用途[1]。八角茴香油具有较强的抑制皮肤癣菌作用, 对临床常见致病性念珠菌也有抗菌作用。在食品生产方面, 我国许多肉制品中都用它作增香剂;它也是中草药材。在药用方面, 具有温阳散寒、理气止痛之功, 也有祛风理气、和胃调中的功能, 用于中寒呕逆、腹部冷痛胃部胀闷等[2,3]。茴香脑是无色或淡黄色液体, 低温时凝固, 为白色结晶, 比重为0.980~0.994 。八角含有莽草酸—达菲的基本成分, 八角成了达菲主要成分的来源, 八角茴香可做禽流感药物[4]。在传统使用中都直接用八角茴香果, 茴香油的利用率低, 随着食品工业发展, 茴香提取物以其体积小、卫生、使用方便、添加量小 (2~30×10-6) 等优点代替了八角茴香果的使用[5]。八角茴香油主要用于单离茴香脑, 制备茴香醛, 可调配香皂、口腔用品等日用香精, 也用于食品、烟、酒用香精[6]。

2 研究的主要内容

笔者主要围绕以往对八角油树脂的提取试验的结果作为依据基础, 用正交实验进行优化设计, 选出最佳实验条件。最后对部分物理性质, 包括密度、沸点等进行简易的相关测定。

此试验采用索氏提取装置对八角粉进行正交实验设计提取八角油树脂, 记录数据, 然后分别将以上实验的数据加以比较分析, 得出结论。

3 材料与方法

3.1 实验材料来源

试验材料以2014年南宁高峰林场界牌分场采摘的八角干果为原料。溶剂为无水乙醇、丙酮、乙酸乙酯。

3.2 实验仪器

实验仪器为多功能粉碎机、索氏提取器、电子天平、烧杯、胶管、胶头滴管、小玻璃收集瓶、温度计以及一些常规的玻璃仪器。

3.3 正交优化实验

为优化提取工艺条件, 根据前人实验的初步考察, 用索氏提取法进行该优化实验。确定以回流次数 (A) 、溶剂比 (B) 、粉碎粒 (C) 径作为考察因素, 每个因素选取3个水平, 使用本实验采用L9 (34) 进行正交试验分析, 来确定最佳工艺条件。

实验步骤为:取阴干八角果适量, 用粉碎机粉碎, 用不同的筛子筛好。按不同的粉碎颗粒大小, 小于14目称量八角果3份, 每份30g, 分袋装好;14~28目称量八角果3份, 每份30g, 分袋装好;大于28目称量八角果3份, 每份30g, 分袋装好用滤纸包好材料装进索氏提取器, 分别加入200mL的无水乙醇与丙酮 (1∶1、1∶2、1∶3) , 装好仪器, 在同一电热恒温水浴箱中加热, 温度控制在95℃。记录回流次数, 当回流次数到达一定数值时, 停止加热, 将索氏提取器取下, 换成蒸馏装置, 继续加热, 直至冷凝管内无液体流出, 称量产物, 算出提取率, 记录好数据 (每种颗粒度重复3次实验) 。

4 结果分析

用索氏提取法做正交优化试验设计。因素水平表见表1, 实验结果见表2。正交实验方差分析见表3。

从极差R分析, 各因素对提取结果的影响依次为:溶剂比例>粉碎粒度>回流次数, 方差分析的结果显示粉碎粒度、回流次数和溶剂比例对出油率都为不显著性影响。但就实验记录的数据分析, 根据A、B、C对指标的影响程度, 确定八角茴香挥发油较好的提取工艺为A3B2C1, 即碎粒度为>28目, 回流次数为15, 溶剂比例为1∶3。

注:F0.05 (2, 2) =19.00;F0.01 (2, 2) =99.00

5 结论

用正交实验进行优化设计, 得出的数据进行方差分析, 从极差R分析, 各因素对提取结果的影响依次为:溶剂比例>粉碎粒度>回流次数, 直观分析的结果显示粉碎粒度、回流次数和溶剂比例对出油率都有显著性影响。可以得出较优的实验方案设计为:碎粒度为>28目, 回流次数为15, 溶剂比例为1∶3。

目前八角油树脂的提取方法主要有索氏提取法, 水蒸气提取法, 有机溶剂浸取法, 超临界流体萃取法和微波辅助提取。其中有机溶剂法容易引入杂质, 造成有机溶剂残留, 影响包合等后续制备工艺;超临界流体萃取法成本较高, 实验条件不容易满足;水蒸气蒸馏法操作简便, 成本低, 所提油树脂纯度高, 但提取率很低, 无法满足工厂大规模的生产需要。索氏提取法周期短, 溶剂利用率高, 产率高, 产品含杂较少, 因此本文采用索氏提取法提取八角油树脂。但进行相关提取试验时, 由于装置、操作等因素的影响, 使得八角油树脂未完全收集的现象存在, 得出的数据还不够精确和完整。

参考文献

[1]中国科学院中国植物志编辑委员会.中国植物志:第三十卷第一册[M].北京:科学出版社, 1996:228~231.

[2]三木.遭遇禽流感八角身价涨[J].大众商务, 2006, 6 (1) :30~31.

[3]谢良, 许时婴.GC/MS分析八角茴香油[J].中国油脂, 1997, 28 (5) :43~45.

[4]孙宝国, 何坚.香精概论——香料、调配、应甩[M].北京:化学工业出版社, 1999:31~32.

[5]刘永华, 林义忠, 苏仕风, 等.机械干燥法对八角干果品质的影响[J].广西科学院学报, 1998, 14 (3) :19~22.

煤矿井下视频关键帧提取算法 第8篇

随着视频内容和表现形式日益复杂,如何对视频数据进行有效检索己成为目前研究的重点。关键帧提取技术是实现视频检索的基础。关键帧又称代表帧,通过关键帧的提取,可使视频信息的存储、组织和检索更加方便快捷,从而加速视频处理的速度[1]。关键帧提取要遵循“宁愿错,不能少”的原则,同时,在代表特征不具体的情况下,一般以去掉重复(或冗余)帧图像为原则[2]。

我国煤矿开采条件恶劣,矿井安全事故频发,针对煤矿井下的视频监控研究尤为重要。由于井下视频数据量巨大,所以需要实现对煤矿井下视频关键帧的提取。结合矿井图像内容灰度变化小、容易受到噪声影响的特点[3],本文首先利用相邻图像间的帧差初步提取出关键帧,再针对存在冗余帧的问题,利用Canny算法提取图像边缘并进行边缘匹配,将冗余的关键帧剔除。Canny算法是一种满足最优准则的边缘检测算法,具有检测准确、定位精度高等特点[4]。

1 典型的关键帧提取算法

目前国内外研究的关于关键帧提取的典型算法有基于镜头边界的方法、基于图像内容的方法、基于运动分析的方法、基于聚类的方法和基于压缩视频流的方法[5]。这些方法各有优缺点:基于镜头边界的方法是在视频分割后,将每个镜头的首帧、尾帧或者中间帧作为镜头的关键帧,该方法实现较为简单,无论镜头的内容如何,关键帧的数量相对确定(首帧、末帧或者两者皆选),其缺点在于稳定性较差,因为每个镜头的首帧或末帧不一定总是能够很好地反映镜头的主要内容[6],尤其是对那些运动较为剧烈的视频,首尾帧或者中间帧并不能代表视频的主要内容;基于图像内容的方法与第1种方法相比,不需要镜头分割,能够动态地选择关键帧,但是计算量增加,提取出的关键帧数目很大,并且有一部分关键帧不具备代表性,冗余度很大,此外,一帧图像包括颜色属性和结构属性,单一的特征并不能概括图像的主要信息,会造成关键帧的错选、漏选[7];基于运动分析的方法运算量较大,而且该方法中采用的局部极小值也不一定准确;基于聚类的方法提取出的关键帧能够表达视频的主要内容,但是它有可能会改变图像之间的时间顺序,最终导致关键帧图像杂乱无章,不能有效地保存动态信息,此外,阈值的选择也是个问题;基于压缩视频流的方法不需要对视频进行全部解压缩,运算量减少,计算复杂度降低,提高了关键帧提取速度,但是这种算法对视频中的闪光灯和噪声干扰很敏感,容易造成冗余和误检,使得提取的关键帧较多。

本文提出利用帧差提取关键帧的方法,并对存在的冗余问题提出了有效的解决方案。利用帧差提取关键帧的方法计算较简单,速度快,提取出的关键帧能较好地反映视频的主要内容。

2 基于帧差的关键帧提取算法

选择的关键帧应该能够在不增加冗余度的情况下尽可能表达视频的主要内容。本文采用帧差欧氏距离来计算帧间相似度,对于一个包含N帧、图像大小为m×n的视频序列而言,先将所有图像帧转换为灰度图像,然后计算相邻帧之间的帧差

式中:分别表示视频的第i帧和第i+1帧图像。

获得帧差后,用式(2)计算帧差欧氏距离D:

式中:为第i帧与第i+1帧之间的帧差;为第i+1帧与第i+2帧之间的帧差。

获得视频的帧差欧氏距离后,取其极值点,并将这些极值点对应的帧作为备选的关键帧;然后求出这些极值点中的最大值和最小值,并利用最大值与最小值计算出中间值,筛选出大于中间值的极值点,将这些极值点所对应的帧作为最终的关键帧。根据帧差欧氏距离提取的关键帧存在较大的冗余度,下面对该算法进行改进,去除冗余的关键帧。

3 改进的关键帧提取算法

用基于帧差的关键帧提取算法得到的关键帧能很好地表达视频的主要内容,但是有些帧在内容上并没有什么变化,这时就需要进行进一步的筛选,去掉冗余图像帧。可以通过提取图像帧的边缘,去除边缘相似的图像帧。

目前常用于视频帧图像边缘检测的算子有Sobel算子、Prewitt算子、Roberts算子和Canny算子等。Sobel算子对对角边缘的检测敏感度较高,Prewitt算子边缘检测较准确、全面,Roberts算子缘定位精度比较高,但用这几种算子常常会丢失一些边缘信息,尤其是对含有噪声的图像边缘检测效果更差[8],而Canny算子不受噪声干扰,并且由于采用了非极大值抑制和形态学连接操作处理,使得提取的边缘比较完整,连接性较高,所以效果比其他方法显著。

Canny边缘检测过程如图1所示,检测步骤:(1)进行高斯滤波,主要是实现图像去噪,如图1(b)所示。(2)用一阶偏导的有限差分来计算梯度的幅值和方向,相当于Sobel边缘检测,如图1(c)所示。(3)对梯度幅值进行非极大值抑制,此时得到的边缘已经很细了,如图1(d)所示。(4)用双阈值算法检测和连接边缘,主要是从非极大值抑制的结果中去除假边缘,保留真边缘,同时又能让保留的边缘尽量连贯真实,如图1(e)所示。

改进算法流程如图2所示。

图1 Canny边缘检测过程

图2 改进算法流程

用基于帧差欧氏距离的方法提取出关键帧后,将这些关键帧放入集合A中,再利用Canny边缘检测算法提取集合A中所有帧的边缘图像,并对相邻的边缘图像进行边缘匹配,将相似度较小的帧标记为关键帧。对于视频中大小为m×n的图像,用式(3)计算其边缘匹配率Q(fi,fi+1):

式中:,其中分别表示集合A中第i帧和第i+1帧图像经过边缘提取后的边缘像素总个数;s为相邻两帧的图像边缘像素相同的像素点总个数,,其中h(i,j)表示相邻帧在(i,j)这个像素位置上相等并且值为1的像素点。

得到集合A中所有帧的边缘匹配率后,根据边缘匹配率曲线,将匹配率小于50%的帧仍作为关键帧,匹配率大于50%的帧作为冗余帧将其剔除。Canny边缘匹配结果如图3所示,其中图3(a)中2幅图分别是经帧差欧氏距离提取出的关键帧,图3(b)是图3(a)中2幅图所对应的边缘。

图3 Canny边缘匹配结果

4 仿真结果与分析

以一个包含505帧、时长为21s的井下视频序列为例,在Matlab仿真环境下提取其关键帧。首先,计算其帧差欧氏距离,标记出帧差欧氏距离的极值点并进行筛选,帧差欧氏距离如图4所示,其中+标记处的极值点所对应的帧就是最终筛选出的关键帧。

图4 井下视频的帧差欧氏距离

该段视频经过上述算法后可提取的关键帧总数为69帧,这里提取前40帧关键帧进行观察,如图5所示。

图5 针对井下视频提取出的关键帧

由图5可以发现,由于煤矿井下视频图像对比度低、噪声大、分辨率低、视觉效果差,根据帧差欧氏距离提取的关键帧仍存在一定的冗余度。将帧差法提取的关键帧作为候选关键帧,采用Canny边缘检测算子提取井下视频候选关键帧的图像边缘,并计算它们的边缘匹配率,如图6所示。

图6 边缘匹配率

从图6可知,有一些关键帧的匹配率非常高。依次比较后一帧与前一帧的匹配率,将匹配率低于50%的帧仍作为关键帧,其余帧作为冗余帧剔除,实验结果见表1。从表1可以发现,经过改进算法提取的关键帧数目降为57帧,冗余度有所下降。

表1 实验结果

5 结语

在通过帧差欧氏距离提取关键帧的基础上,提出结合边缘匹配法来对原有的关键帧提取算法进行改进。先求取所有帧的帧差欧氏距离,并把其中极值点所对应的帧作为备选的关键帧;然后利用Canny算子提取这些帧的边缘轮廓,计算匹配率,从而剔除冗余帧,解决了关键帧存在冗余的问题。该算法虽然使冗余度有所下降,但后面引入的图像边缘提取及匹配率计算增大了计算量。实验结果表明,该算法能够在概括视频主要内容的前提下,有效降低冗余度。

参考文献

[1]张建明,李广翠,蒋兴杰.基于群体智能与K-均值相结合的关键帧提取[J].计算机应用研究,2011,28(1):360-362.

[2]朱映映,周洞汝.一种从压缩视频流中提取关键帧的方法[J].计算机工程与应用,2003,20(18):13-14.

[3]程德强,赵国,范一武,等.矿井移动载体摄像的电子稳像算法[J].中国矿业大学学报,2012,41(5):805-810.

[4]刘超,周激流,何坤.基于Canny算法的自适应边缘检测方法[J].计算机工程与设计,2010,31(18):4036-4039.

[5]ZHANG H J,WANG J Y A,ALTUNBASAK Y.Content-based video retrieval and compression:a unifed solution[C]∥IEEE International Conference on Image Processing,Santa Barbara,CA,1997:13-16.

[6]陶丹,陈后金.一种压缩域中基于镜头的关键帧提取改进算法[J].计算机应用研究,2009,26(9):3539-3541.

[7]CIOCCA G,SCHETTINI R.An innovative algorithm for key frame extraction in video summarization[J].Journal of Real-Time Image Proessing,2006,1(1):69-88.

提取关键词 第9篇

关键词:动态规划,自适应,帧差矩阵,关键帧提取,视频检索系统

1 引言

多媒体技术的发展带来了海量的视频数据,导致了超大型视频信息库的产生,迫切需要研究基于内容的视频检索系统。其中镜头的边界检测和镜头内的关键帧提取是视频检索系统的关键技术。关键帧是指能够代表一个镜头显著内容的一帧或若干帧,在关键帧被提取出来以后,对于视频内容的分析便转化为对关键帧内容的分析。关键帧提取的结果将直接影响视频检索系统的性能。

目前的关键帧提取算法可分为5类:1)基于镜头的方法,当镜头边界被检测出来以后,抽取镜头的第一帧和最后一帧作为关键帧[1]。2)基于物体运动分析的方法,按照运动能量模型来选取关键帧[2,3]。3)基于无监督聚类的方法,通过对镜头内帧的颜色直方图进行聚类来抽取关键帧[4]。4)基于摄像机运动分析的方法,首先分析摄像机的运动,然后在摄像机缩放产生的镜头中,抽取第一帧和最后一帧作为关键帧,在摄像机平移产生的镜头中,互相之间重叠小于30%的帧被抽取出来作为关键帧。5)基于镜头内容的方法,通过分析镜头所包含的内容来抽取关键帧[5,6]。

在关键帧提取算法中需要考虑3个因素:1)根据镜头的不同内容进行关键帧提取的自适应性;2)降低关键帧提取算法的计算复杂度;3)保持关键帧的时序性。目前算法中,基于镜头的方法计算复杂度较低,但不能有效地自适应提取有意义的关键帧;基于运动的方法和基于内容的方法可以有效提取出有代表性的关键帧,但具有很高的计算复杂度;基于聚类的方法则不能保持关键帧的时序性。为更好地解决上述问题,笔者提出了一种新的关键帧提取算法。首先采用图像的低层特征构建出帧差矩阵,然后把关键帧提取问题建模为一个全局优化问题,并用动态规划算法来求解。该算法可以低计算复杂度自适应地提取出有意义的关键帧,同时关键帧的时序性也得到了很好的保留。

2 帧差矩阵

使用颜色直方图作为图像的低维特征来构建镜头的帧差矩阵。一个有m帧的镜头被表示为一个帧向量F={f1,f2,…,fm}。两帧之间的距离为

式中:hi表示第i帧的M量化阶颜色直方图。

帧差矩阵可以通过计算一个镜头中每两帧之间的距离来得到。为了使帧差矩阵可以更好地描述具有不同内容的镜头,本算法采用一个自适应阈值对其进行量化,进一步得到一个二值的帧差矩阵。

一个镜头内相邻两帧的距离可以被认为符合高斯分布[7],其概率密度函数可以被表示为

所以,可以把自适应阈值定义为

式中:μ和σ可通过最大似然估计得到。在实验中,选取α参数的值为6。

当自适应阈值被确定后,帧差矩阵就可按照式(4)进行量化,

从而得到一个二值的帧差矩阵。

3 通过动态规划算法求解全局最优问题

为了提取关键帧,可以先把一个镜头按照镜头中帧的相似程度分为若干子镜头,每个子镜头中的帧在内容上可以被认为是相似的,从而可以从每个子镜头中提取中间帧作为关键帧。这个问题可以进一步被建模为一个全局最优化问题。通过先建立代价方程,然后使用动态规划算法在全局代价最小的条件下将二值帧差矩阵M分割为N个子矩阵,每个子矩阵对应一个子镜头,最后根据分割情况提取每个子镜头的中间帧作为关键帧。

算法的具体步骤如下:

1)定义S(fi,fj)为一个从第fi开始到第fj结束的子矩阵的代价

式中:1≤si

显然,S(1,m)表示镜头中所有帧的总代价。然后定义C(m,N)表示当在把一个m×m矩阵分割为N个子矩阵后这N个子矩阵的代价总和。接着所要做的就是用动态规划算法来求解使全局代价C(m,N)最小的分割情况。

2)计算将一个si×si的矩阵分割为两个子矩阵的最小代价,其中2≤si≤m

式中:2≤sj≤si。

3)计算将si×si的矩阵分割为3个以上子矩阵的最小代价

式中:3≤L,L≤si≤m,L-1≤sj≤m。

经过以上步骤,就可以得到将一个m×m矩阵分割为L个子矩阵的最小代价C(m,L)。

4 关键帧的抽取

经过以上步骤可以得到如图1所示的曲线,横坐标表示子矩阵的个数N,纵坐标表示将代价C(m,N)用总代价S(1,m)归一化后的值C(m,N)。

由于每个子矩阵中的帧都具有相似的内容,可以用一个关键帧来表示每个子分割。这样就可把关键帧提取问题建模为一个优化问题

式中:是归一化代价,是用镜头中的帧数归一化后的关键帧数目。λ可以根据实际情况进行选取,用来在总的代价和关键帧的数目之间取得平衡。

在选取了关键帧的最优数目后,就可以找出每个关键帧的位置了。首先通过找到符合下面式子的p来找到最后一个子分割的边缘

确定了p以后,p,p+1,…,m就是最后一个分割中的所有帧。然后反复通过同样的方法根据现在已经找到的分割边缘去寻找所有剩下的分割边缘。由于每一个子分割里的帧都具有相似的内容,所以选取中间帧作为每个子分割的关键帧。

5 实验结果与分析

关键帧提取问题的性能评估是一个十分主观的问题,到目前为止还没有客观标准去衡量[8]。为验证本文提出的关键帧提取算法的性能,实验中选用了具有不同内容,不同长度的视频测试数据。有三类镜头是视频中最常见的,第一类是摄像机缩放产生的镜头;第二类是具有丰富运动的视频;第三类是由摄像机平移产生的镜头。下面分别给出这三类具有代表性的镜头的实验结果。实验中λ参数统一选取为15。

5.1 摄像机缩放镜头的关键帧提取

图2显示了从一个具有186帧的摄像机缩放镜头中抽取的关键帧。抽取的关键帧结果很好地表示了整个缩放镜头的内容。

5.2 丰富运动镜头的关键帧提取

具有丰富运动特性的镜头是视频中较为常见的。选取一段包含有538帧的冰球比赛视频做测试,结果如图3所示。

在一般的无监督聚类算法中[4],图3中的第1帧和第3帧由于内容的相似性将被聚为一类,从而只有其中的1帧会被抽取出作为关键帧,这样就破坏了视频内容的连续性。而笔者的算法抽取出的关键帧可很好地保持视频序列的时间连续性。

从图3可见,笔者提出的算法不仅可以抽取出具有代表意义的帧,而且抽取出的关键帧的数目可以根据视频内容自适应选取。

5.3 摄像机平移镜头的关键帧提取

对于摄像机平移镜头,实验中选取了一段具有263帧的足球比赛视频。在图4中,仅抽取了两个关键帧就很好的表现了整个镜头的精彩内容。

当存储代价较高的情况下,减少抽取出的关键帧的数目可以节省系统开销,本算法中可以十分方便地通过提高λ值来实现。在冰球比赛视频中,把λ值从15提高到30,得到的结果如图5所示。

从图5可见,虽然关键帧的数目减少了,但镜头的主要内容还是被较好地保留了下来。由于可根据存储代价方便地调节λ值,大大提高了本文算法的实用性。

5.4 算法复杂度分析

本文提出的关键帧提取算法的运算复杂度主要来自两方面。第一是计算帧差矩阵,这个步骤需要O(n2)的计算复杂度,其中n是一个镜头内的帧数。另外一个方面是动态规划算法,它需要O(kn2)的计算复杂度,其中k是关键帧的数目。在一台主频3.0 GHz,内存512 Mbyte的PC上对一个具有2 300帧的长镜头进行关键帧提取,仅需要30 s左右的处理时间。所以笔者提出的算法具有较低的计算复杂度。

6 小结

笔者提出的这种基于动态规划的关键帧提取算法,其创新性在于把关键帧提取问题建模为帧差矩阵上的全局优化问题。实验结果显示此算法可以根据视频的内容自适应地选取出合适数量的关键帧,同时避免了高计算复杂度。当存储代价比较高的情况下,也可很方便地调节关键帧的数目。

参考文献

[1]ZHANG Hongjiang,WU J,ZHONG D,et al.An integrated sys-tem for content-based video retrieval and browsing[J].Pattern Recognition,1997,30(4):643-658,

[2]LIU Tianming,ZHANG HongJiang,QI Feihu.A novel video key-frame-extraction algorithm based on perceived motion energy mod-el[J].IEEE Trans.CSVT,2003,13(10):1006-1013.

[3]WOLF W.Key frame selection by motion analysis[C]//Proc.IEEE ICASSP1996.[S.l.]:IEEE Press,1996:1228-1231.

[4]ZHUANG Yueting,RUI Yong,HUANG T S,et al.Adaptive key frame extraction using unsupervised clustering[C]//Proc.IEEE ICIP1998.[S.l.]:IEEE Press,1998:886-870.

[5]CHAU W S,AU O C,CHAN T W,et al.Optimal key frame selection using visual content metric[C]//Proc.IEEE ICCCS2005.[S.l.]:IEEE Press,2005:551-555.

[6]DIRFAUX F.Key frame selection to represent a video[C]//Proc.IEEE ICIP2000.[S.l.]:IEEE Press,2000:275-278.

[7]ZHANG Hongjiang,KANKANHALLI A,SMOLIAR S.Automatic partitioning of full-motion video[J].ACM/Springer Multimedia Sys-tems,1993,1(1):10-28.

提取关键词 第10篇

随着多媒体技术的发展,涌现出大量的视频数据,从而导致超大型视频信息库的产生,基于内容的视频检索系统成为一大研究热点。为了建立视频索引,提取视频摘要和进行视频检索,首先需要选取镜头的关键帧。只有对分割后镜头的关键帧进行准确定位,才能为最终的检索奠定良好的基础。所谓关键帧,是指在图像序列中具有代表性,能够反映一个镜头序列内容梗概的图像帧,通过选取关键帧可以大大减少视频索引的时间和复杂度。当前,典型的关键帧提取算法[1,2]有:基于镜头的方法,基于运动分析的方法,基于压缩域的方法,基于聚类的方法和基于帧图像信息的方法等。

在现阶段比较热门的基于帧图像信息提取关键帧的方法研究中,陆伟艳等提出了基于内容的视频检索的关键帧提取方法[3],黄兰英提出的一种基于互信息量的关键帧提取方法[4],实验论证了与聚类法相比,基于互信息量的方法大大提高了关键帧提取速度。盛骁杰等提出的基于动态规划的自适应关键帧提取算法[5],房岳楼等提出的视频关键帧选取方法和可视化表现方法[6],将关键帧提取问题建模为全局优化问题,运用数学的方法求解问题。但是这些方法都需要直接或间接地用参数来确定关键帧数目。

笔者提出一种基于互信息量的子镜头全局优化分割及关键帧提取方法,主要通过建立以子镜头内相邻帧的互信息量最大化(即相邻帧相关性最大化)和镜头的关键帧包含信息量最大化为目标的多目标规划数学模型,求解子镜头分割的全局最优解,并以此确定镜头的关键帧数量和位置。

1 互信息量理论

1.1 相关定义

X为某一随机事件可能出现的事件集合,即X={x1,x2,⋯,xn},p是事件X的概率分布,p={p1,p2,⋯,pn},p≥0并且=1,则随机变量X的熵为[4]

X,Y的联合熵为

式中:pxy(x,y)为X,Y的联合密度函数。

X,Y之间的互信息量为

如果X,Y是独立的随机变量,则互信息量有如下性质:

1)I(X,Y)≥0;

2)若H(X),H(Y)均为零,则I(X,Y)=0;

3)I(X,Y)=H(X)+H(Y)-H(X,Y)。

1.2 图像的熵和互信息量

图像可以看成一个二维的随机变量。图像的熵值H(ft)表示图像所包含的平均信息量的大小[4]。在视频中图像的互信息量可以表示为相邻帧之间的相关性的程度,即互信息量I(ft,ft+1)越小,相邻帧ft和ft+1越不相关。在实际应用中,可以选择图像的颜色、形状、纹理等各种信息来计算图像的熵和互信息量。以颜色为例,可以将颜色分为独立的色度(hue)、饱和度(saturation)和亮度(brightness)3个分量的HSV颜色空间,则可将图像颜色表示为C=16H+4S+V,其中权重根据实验经验确定[7]。

由此ft的图像熵为

相邻帧ft和ft+1互信息量为

2 多目标规划提取关键帧

2.1 多目标规划方法

为提取关键帧,按照镜头中帧的相似程度,可把一个镜头分为若干子镜头,每个子镜头中的帧在内容上可被认为是相似的,从而可从每个子镜头中提取包含信息量最大的一帧作为关键帧。这样既确定了关键帧的数目,而且在关键帧能充分表达子镜头内容的前提下,又减少了镜头信息丢失。

这里采用基于相邻帧ft和ft+1间的互信息量I(t,t+1)作为特征参数参与帧间变化的计算。首先要求子镜头内相邻帧之间的互信息量均值越大越好,即相邻帧相关性最大化

式中:m为子镜头个数,则1≤m

其次,镜头关键帧要包含信息量尽量大,显而易见,把所有帧都作为关键帧则信息丢失为0,信息量最大。所以在保证子镜头内相似度最大的情况下,选取信息熵最大的帧作为关键帧,可减少信息丢失。镜头关键帧信息熵最大化

式中:Xi={fi1,fi2,⋯,fis}为第i段子镜头的图像帧集合。

2.2 全局优化的关键帧提取

在提取关键帧的过程中,有两个最主要的问题:一是什么样的图像帧才应该被选为关键帧,即关键帧的选择与评价标准;二是采用何种方法来提取关键帧。

由上述理论,笔者建立以子镜头内相邻帧的互信息量最大化和镜头关键帧包含信息量最大化为目标的多目标规划数学模型

其中,当m=1时,G1=最小,G2=max{H(ft)}最大;当m=n-1时,G1=max{I(t,t+1)}最大,G2=最小。因此,总是会有这样一个m使得这个模型的两个目标都能达到一个满意解,即可以对镜头进行全局优化的子镜头分割,从而确定关键帧的数目,并由选取子镜头中信息熵最大的图像帧作为关键帧,来确定关键帧的位置。

在求解过程中,笔者假设两个目标G1,G2对提取关键帧的作用同样重要,所以可以对以上模型建立评价函数

式中:,用来平衡两个目标;在实际应用中,也可以根据实验数据和用户需求来设定λ值。

由此,可以采用启发式算法来求解此多目标规划的全局最优解:

1)初始m=1,即初始假设整个镜头就是一个子镜头,计算评价函数G。

2)找出最小的相邻帧互信息量I(t,t+1),并令其为0,m=m+1,即从ft和ft+1之间将一个子镜头分为两个新的子镜头。

3)重新计算新的G,并与之前的G进行比较。

4)如果G增大,则继续步骤2);如果G减小,则以概率p(取0.05)继续步骤2),否则结束,输出m和相应的关键帧。

3 实验结果与分析

笔者采用VS2005和OpenCV图像处理库开发了基于互信息量的关键帧全局优化提取算法的测试程序。关键帧提取方案的性能评估是一个十分主观的问题,目前尚无可用来衡量的客观标准。为验证提出的关键帧提取算法的性能,实验中选用了具有不同程度镜头变化的视频测试数据作为对比,并以颜色特征作为特征参数参与熵和互信息量的计算。

3.1 运动平缓的镜头提取关键帧

对于镜头运动不大的情况,选用了234帧的动画作品《我叫MT特别篇》的小片段测试,此测试视频包含了镜头的缓慢缩放。实验比较镜头的互信息量和图像颜色信息熵,得到图1与图2数据。

如图1和图2所示,因为镜头1运动变化不大,所用方法只进行了一次分割子镜头,已经使得镜头的关键帧提取达到全局最优,所以结果如图3所示,只提取了两帧作为此镜头的关键帧。

3.2 丰富运动的镜头提取关键帧

运动变化丰富的镜头在视频中也很常见,选用了218帧的动画作品《我叫MT》的片头作测试。实验得到此镜头的互信息量和图像信息熵数据如图4和5所示。

因为在镜头2中运动要比镜头1来的丰富,笔者方法中的两个目标在数据上的变化也自然地增大,所以子镜头的分割会增多。结果镜头被分成了4个子镜头,并提取了相应的4个关键帧,能很好地表现整段小视频内容,如图6所示。

实验结果表明,多目标规划方法可以快速有效地提取关键帧。根据镜头运动变化的不同,通过分析相邻帧之间互信息量的差异,将镜头分解为几个子镜头,同时也就确定了关键帧的数量。而最大熵的关键帧,也能很好地反映整个镜头的信息。

4 小结

笔者提出一种以子镜头内相邻帧的互信息量最大化(即相邻帧相关性最大化)和镜头关键帧包含信息量最大化为目标的多目标规划数学模型,选用启发式算法来求解子镜头分割的全局最优解,以此确定镜头的关键帧数量和位置。该算法简洁,计算方便,易于实现,大大提高了提取速度,获得的关键帧有效地保持了原视频的时间顺序和动态信息,有利于视频分析和检索,实验证明使用该方法提取的关键帧能较好地反映视频镜头的内容。

参考文献

[1]谭枫.镜头边界检测及关键帧提取[D].哈尔滨:哈尔滨工程大学,2006.

[2]李晓梦.基于视频模型的镜头分割及关键帧提取算法研究[D].长春:吉林大学,2007.

[3]陆伟艳,夏定元,刘毅.基于内容的视频检索的关键帧提取[J].微计算机信息,2007,23(11):298-300.

[4]HUANG Lanying.An approach of key frame extraction based on mutual information[C]//Proc.CNMT2009.[S.l.]:IEEE Press,2009:1-4.

[5]盛骁杰,杨小康.基于动态规划的自适应关键帧提取算法[J].电视技术,2009,33(4):16-18.

[6]房岳楼.视频关键帧选取方法和可视化表现研究[D].天津:天津大学,2008.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【提取关键词】相关文章:

语段压缩与提取关键词07-05

黄连素超声提取与索氏提取工艺的对比研究09-12

中心提取05-04

过程提取05-29

元素提取06-08

优化提取06-12

提取利用07-30

遥感提取08-21

文字提取09-02

超声强化提取05-08

上一篇:多媒体案例课件论文下一篇:广电传输系统