全文检索技术范文

2024-06-03

全文检索技术范文(精选12篇)

全文检索技术 第1篇

中国的少数民族语言文字主要有蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文, 其中维吾尔文、哈萨克文、柯尔克孜文 (以下简称维文、哈文、柯文) 是新疆地区的法定使用文字。由于Unicode等国际编码规则的限制, 规定一种字形在编码表中只能出现一次, 因此就没有制定专门的维吾尔文、哈萨克文等字符集, 而是将阿拉伯语系的所有字母统一做了编码。在新疆应用的维吾尔文、哈萨克文等都是借用阿拉伯文字母来表示本民族的文字, 但采用的字型及读音都有些变化。根据最新的GB216690-2008信息技术-维吾尔文、哈萨克文、柯尔克孜文编码字符集国家标准, 维吾尔文有字母32个, 哈萨克文有字母33个。哈萨克文33个字母中有21个字母的字型形状及编码与维吾尔文完全相同, 其余12个字母中有8个哈文专有字母, 另外4个字母的字型虽然与维吾尔文相同, 但与元音前置符组合后8的字符及编码均不相同。尽管哈萨克文与维吾尔文编辑排版规则基本相同, 由于字符集不同 (本文中字符表示33个字母及字母的变形形式和组合形式的统称) , 读音不完全相同, 字母排列顺序完全不同。在构建支持维、哈、柯文的全文检索系统时, 为了正确的建立索引必须要对重合部分的字母判定其归属的语种, 必须在传统的全文检索系统之上增加语种识别功能。

Lucene是用java实现的成熟的开放源代码的全文检索引擎工具包。它不是一个完整的全文检索引擎, 而是一个全文检索引擎的架构, 提供了完整的查询引擎和索引引擎, 部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包, 以方便的在目标系统中实现全文检索的功能, 或者是以此为基础建立起完整的全文检索引擎。利用Lucene结合对维、哈、柯文的特殊处理, 可以实现对维、哈、柯文件的全文检索。

1 系统设计与实现

语种识别工作应该在全文检索系统完成数据收集之后以及创建索引之前进行, 其目的便是为正确有效的创建索引提供基础。

1.1 框架设计

1.2 具体实现

1.2.1 数据收集

Lucene并不关心数据的来源、格式, 甚至文件使用说明自然语言都没有关系, 只要可以把它转换成文本格式。也就是说可以使用Lucene来索引、搜索存放在文件中的一切能够从中提取文本信息的数据格式。

当完成对数据的预处理后, 便可以构建包含若干个域 (Field) 的相关文档 (Document) 对象。

语种识别

语种识别工作即标识出文件内容的语种, 并确定文件是单一语种文件还是多语种的混排文件。

语种识别工作首先通过对文件字符的Unicode编码的判断来确定:

同时, 需要对哈萨克文变形显现形式的代码进行匹配。

通过对以上的Unicode编码分析可以看出, 维文和哈文均为阿拉伯文代码区间的子集, 直接通过正则表达式进行匹配的结果势必造成同一个文件既为维文又为阿拉伯文的错误情况, 哈文也是如此。因此, 对于维、哈文的判断应优先于阿拉伯文, 如果能与维、哈文匹配, 则不再去与阿拉伯文进行匹配, 这样便可实现对维、哈文的识别, 而不会出现同一个文件被标注成两个语种的情况。

对于已经识别出的维文或哈文文件, 还不能直接进行标注。从以上的Unicode编码还可以看出, 维、哈文之间的很多字母是公用的。所以应该通过对维、哈文字母中特有的字母和特殊的字母组合方式进行判断, 如果该文件中只出现了维文特有的字母或字母组合, 则可以判定该文为维文文件;同样方法也可以判断出哈文文件。如果两种语言的特殊字母或字母组合均有出现, 则可以判断为维哈文的混排文件。

另外, 还可以通过维、哈文的特殊组词规则进行语种的判定。例如通过前缀符及前缀符与字母组合区分维哈文等。

目前在新疆已经入库的维吾尔文文献中, 有一部分是利用原先的维吾尔文新文字表示的文献。维吾尔文新文字是由英文字母或英文字母的组合来代替原来的老维文字母。对新文字就不能简单地用Unicode编码来判定文种, 可以利用新文字的几个特殊字母组合来判定文种。为此需先建立新维文字母表, 在语种分析时, 将其从数据库中取出进行匹配, 重点匹配新维文的特殊字母组合以及特殊的字母组词方式, 尤其是英文中不会出现的字母组合, 如果能匹配则可以判断出该文件为新维文。同时根据英文特有的而新文字中不会出现的字母组合, 来判断英文文件。如果两个语种的特殊组合都有出现, 则可以判断出该文件为英文和新文字的混排文件。

语种识别工作为后面的分析及索引工作提供条件, 根据语种的不同选取不同的分析方式进行分析, 并创建索引。

1.2.2 分析并创建索引

在对数据进行索引处理时, Lucene会首先分析数据使之更加适合被索引。

分析 (Analysis) , 在Lucene当中指的是将域 (Field) 文本转换为最基本的索引表示单元-项 (Term) 的过程。根据语种分析的结果, 对于单一语种的文件和多语种的混排文件要采用不同的处理方式。

(1) 对于单一语种的文件创建索引

对于上述语种除了汉语外, 均是以字母来组成单词形式的语言, 而且单词间天然地以空格来划分, 所以在分析上可以采用相同的分析器来进行分析工作, L u c e n e内置的Simple Analyzer是一个以空格来划分语汇单元的分析器, 用来处理诸如英文类的以空格来划分单词的语种, 可以用来处理上述的英文、俄文、维吾尔文、哈萨克文、阿拉伯文。

对于汉语, 由于使用表意文字, 而不是使用由字母组成的单词, 这些字符之间不是通过空格来分隔的, 所以不能使用SimpleAnalyzer来分析, 需要使用一种不同的分析器来识别和分割语汇单元, 而且需要载入词库来辅助分词, 因此要自定义分析器来分析汉语, 去除标点之类的停止词, 并借助建立的词库来划分语汇单元, 创建自定义分析器, 需要继承Analyzer类, 该自定义类为:

public final class WhiteAnalyzer extends Analyzer

Analyzer类是所有分析器的基类, 要求实现的惟一方法就是:

public TokenStream tonkenStream (String filedName, Reader reader) ;

同时创建WhiteTokenizer用来创建TokenStream对象WhiteTokenizer是继承了TokenStream的子类:用来将Read对象中的数据切分成语汇单元, 当索引Field.Text (String, String) , Field.Un Stored (String, String) 中的String对象时, Lucene会将构造方法中的String对象包装在String Reader中, 以便进行语汇单元的切分。首先逐字的读入reader中的字符对象, 同时以字库中的词条进行匹配, 如果不能匹配, 则读入下一个字符;如过匹配成功, 则可返回Token对象.

(2) 对于多语种的混排文件创建索引

对于多语种的混排文件, 可以先通过停止词将文件内容划分, 然后可以通过不断判断相邻两字符间的Unicode代码区间, 直到相邻两字符不在同一编码区间, 这样便将文件内容信息按语种分割成不同的块。

对于非汉语的语种块, 通过停止词划分就已经完成了Token对象的构造;对于汉语, 则需载入词库, 进行分词, 再来划分出语汇单元。完成后, 便构造好了所有Token对象, 并返回改对象。token成功返回后, 即可将分析后的项写入索引库。如此, 就构造好了所需的索引库。

2 搜索及返回结果

搜索就是在索引中查找关键字的过程, 该过程的目的就是找出这些关键字出现过的位置。L u c e n e的搜索通过Index Search类来实现。

Index Search是用来搜索IndexWriter所创建的索引, 是搜索操作的入口类, 所有的搜索操作都是通过IndexSearch实例使用一个重载的search方法来实现。

通过调用Query Parser类实例化Query对象, QueryParser调用分析器并通过parse方法来解析用户的输入, 将用户输入切分为若干个项。

构造好Query对象后, 便可将其作为InderSearch类中Search方法的一个参数进行搜索, 并返回结果集Hits对象。

3 结束语

利用Lucene可以方便高效地实现全文检索, 其关键在于构建索引库。而对于维、哈文等语种的信息检索, 构造索引库相对复杂, 语种分析至关重要, 这是正确有效地创建索引的基础。另外, 还可以建设各语种的专用词库, 提高索引及搜索的效率。

摘要:在新疆应用的全文检索系统中, 需要区分文本的语种。由于国际编码规则的原因, 新疆的维吾尔文、哈萨克文、柯尔克孜文借用了阿拉伯语系的部分字母, 三种文字的字符集编码有大部分的重叠。本文通过研究三种文字的字符集编码, 结合文字组词规则, 设计了区分三种语种的算法, 为进一步建立索引提供基础。

关键词:全文检索,语种识别,索引

参考文献

[1]维吾尔、哈萨克、柯尔克孜族语言文.http://jieri.org.cn/article/11/58/200809.

[2]张政保.全文数据库研究.中山大学.1995.

[3]Otis Gospodnetic, Erik Hatcher, 谭鸿.Lucene IN ACTION中文版.电子工业出版社.2006.

[4]杨沛.全文数据库索引机制的比较研究.中国科技信息研究所.1995.

网络信息检索技术 第2篇

网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索

逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

(一)逻辑“与”

逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education”。运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”

逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”

逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。检索词A、B若以NOT(或“-”)相连,即A NOT B(或A-B),表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关“energy(能源)”,但又不涉及“nuclear(核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是含有energy,但不含有nuclear的文献将被检索出来。

这三种逻辑式的文氏图如下:

图3-1布尔逻辑文氏图

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此,在计算机信息检索系统中得到广泛使用。但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索结果不能按照用户定义的重要性排序输出。

使用布尔逻辑运算符的注意事项:

布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用,但是不同的检索工具的布尔逻辑检索技术存在一定的差异,因此,使用布尔逻辑检索需要注意以下问题:

1、布尔逻辑检索的执行顺序。三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR。有括号时,先执行括号内的逻辑运算。

2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。首先,不同检索工具表示布尔逻辑关系的符号不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求运算符必须大写,有的则要求为小写形式;其次,不同检索工具的检索词之间的默认布尔逻辑关系不同,有的检索工具检索词之间的默认关系是AND,有的检索工具的检索词之间的默认关系是OR;此外,不同检索工具支持布尔逻辑的方式不同,有的检索工具使用符号来实现布尔逻辑关系,一些检索工具则完全省略了任何符号,直接用文字和表格来体现不同的逻辑关系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。

二、截词检索

截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。

截词的方式有多种。按截断的位置来分,可分为后截断、中截断和前截断;按截断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常用“x”表示。

(一)后截断

后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入“inform x”,则前6个字符为inform的所有词均满足条件,因而能检索出含有informant、informal、information、informative、informed、informer等词的文献。而输入“inform??”,可检索出含有inform、informal、informed、informer的文献。(二)前截断

前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索,是一种后方一致的检索。这种检索方法在各种词头有变化的复合词的检索中应用比较多,有助于提高查全率。

例如,输入“x magnetic”,可以检索出含magnetic、electro-magnetic等词的文献。

(三)中截断

中截断是把截断符号放置在一个检索词的中间。一般地,中截断只允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。

例如,输入“c?t”,可以检索出含有词cat、cut的文献;输入“mod?ation”可以检索出含有词moderation、modernization、modification的文献。

利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高查全率。但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统一的标准,如Dialog系统用“?”,BRS系统用“$”,ORBIT系统用“#”等。

三、位置检索

位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。这里我们只介绍位置检索中的词位置检索。

词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。

(一)(W)算符与(nW)算符

(W)算符是Word和With的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格、一个标点符号或一个连接号外,不得夹有任何其他单词或字母,且词序不能颠倒。(nW)算符的含义是允许在连接的两个词之间最多夹入n个其他单元词。

例如,“VISUAL(W)FOXPRO”可以检出

VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以检出含有contro1 system、control of system和contro1 in system的文献。

(二)(N)算符与(nN)算符

(N)算符是Near的缩写,它表示在此算符两侧的检索词必须紧密相连,所连接的检索词之间不允许插入任何其他单词或字母,但词序可以颠倒。(nN)算符表示在两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意。

例如,“control(1N)system”不仅可以检出含有control system、control of systcm和control in system 的文献,还可以检出含有system of control、system without control等的文献。

(三)(X)算符与(nX)算符

(X)算符要求其两侧的检索词完全一致,并以指定的顺序相邻,且中间不允许插入任何其他单词或字母。它常用来限定两个相同且必须相邻的词。(nX)算符的含义是要求其两侧的检索词完全一致,并以指定的顺序相邻,两个检索词之间最多可以插入n个单元词。

例如,“side(1X)side”可以检索到含有side by side的文献。

四、限制检索

限制检索是通过限制检索范围,从而达到约束和优化检索结果的一种方法。限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。

(一)字段检索

数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录的特定字段中的检索方法,如果记录的相应字段中含有输入的检索词则为命中记录。字段限制检索可以缩小检索范围,提高查准率。

数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两大类。基本索引字段表示文献的内容特征,有TI(篇名、题目)、AB(摘要)、DE(叙词)、ID(自由标引词)等;辅助索引字段表示文献的外部特征,有AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等。在检索提问式中,可以利用后缀符“/”对基本索引字段进行限制,利用前缀符“=”对辅助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找2006年出版的关于信息检索或数字图书馆方面的文献,并要求information retrieval一词在命中文献的TI(篇名)字段中出现,digital library一词在DE(叙词)字段中出现。

(二)限制检索

限制符检索是使用AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符相同,而它的作用则与前缀符相同。

跨媒体检索的技术研究 第3篇

关键词 跨媒体检索 图像检索 LRGA算法

中图分类号:TP3 文献标识码:A

跨媒体所包含的内容非常广泛,包括多媒体数据的存储、多媒体数据检索、多媒体数据的组织管理、多媒体数据的传播和应用等等多个方面相关理论和技术。跨媒体指的是跨越媒体数据的不同媒体形式而共同表达同一语义。也就是说,要研究的跨媒体包括多种媒体形式,而这些媒体数据相互协助来共同表达传播者要传播的信息和目的。如在一个新闻网页中包含的图像和文字两种媒体形式就是所要研究的一个跨媒体对象,它们表达的形式不同,但都在描述该条新闻,在表达时文本和图像做到互相补充、互相解释,共同完成描述该条新闻的功能。

就目前而言,关于跨媒体的研究主要包括以下几个方面:

(1)与跨媒体相关的硬件技术。如输入输出多媒体数据的硬件设备、存储和传输多媒体数据的相关硬件设备配置等。

(2)跨媒体内容检索技术。也就是本文主要介绍的在多种类媒体数据之间进行检索。

(3)跨媒体数据的表达。如何更有效地表示跨媒体数据,方便计算机进行管理和检索,是跨媒体研究的重要课题。

(4)跨媒体数据的推理。即如何让计算机根据已知的多媒体数据,推理产生新的相同类型或不同类型的多媒体数据,从而实现更有效的对多媒体数据进行组织。

(5)跨媒体数据的存储、组织和应用。更有效地对跨媒体数据进行存储和组织,然后进一步利用好跨媒体数据,使其方便于人类的生产和生活,是跨媒体研究的重要内容。

上述跨媒体的五个研究内容中,跨媒体检索的研究是所有其他研究内容的结合点和最终目标。跨媒体检索的研究目标是分析一种媒体数据和多种媒体数据之间的语义关联,在一种或多种媒体数据间进行检索。具体而言,跨媒体检索就是用户提交任意一种媒体的查询,检索相同或者不同种类的相关多媒体数据。由于同种类媒体的检索可以认为是单一媒体形式的检索,所以人们更多关注于不同种类间媒体数据的检索,也就是用户提交某种媒体查询来检索出其他种类媒体数据。

比如,用户提交一个文本查询,检索到与该文本相关的图像或音频等。另外,一些跨媒体检索系统也支持用户提交多种媒体数据对象,来检索多种媒体数据对象。

对图像提取的全局特征主要包括颜色特征、纹理特征、形状特征和空间关系特征等。本小节将对这几种全局特征做一简要介绍。颜色特征:通常情况下,颜色特征由颜色直方图来表示,而最常用的是1991年提出的颜色直方图相交方法。

比较常用的局部图像特征描述子有Harris角点、SIFT和SURF等,其中SIFT特征描述子在基于内容的图像检索中最为常见,本文后面实验章节也是使用的SIFT特征描述子。

在跨媒体检索研究领域中,最大的障碍就是人们常说的“语义鸿沟”,也就是说在不同媒体类型间找到它们的语义关联。在文献中,作者将照片剪辑根据场景分类进行了自动标注,然后根据这种关于场景的语义标注可以选择合适的音乐来进行多媒体幻灯片的放映。深入挖掘图像和声音的语义关联,成功对图像和声音数据进行了聚类。为了对跨媒体数据进行统一表示和组织,文献提出了一种两层流形学习方法来构建跨媒体检索系统。该方法首先为图像数据、音频数据和文本数据。构建三个独立的图,这三个图将图像数据、音频数据、文本数据映射到三个独立的空间中,然后将这三个数据空间结合形成多媒体文档语义空间(Multimedia Document Semantic Space缩写成MMDSS)。然而这种方法有一定缺陷:在建立这三个独立的空间时,不同种类的多媒体文件间的语义关联并没有被考虑到;另外,两层流形学习方法需要调节大量的参数,其复杂程度并不适用于实际使用。于是文献提出了只建立一个图的跨媒体检索系统方案,在这个图中每个多媒体对象都是一个顶点,图中顶点间的距离根据单一媒体对象来确定。尽管这种只建立一个图的方法简化了流形学习的困难程度,但仍然没有能够对不同种类多媒体文件间的语义关联进行很好的分析和利用。

在多媒体关联空间中,每个多媒体文档就是该空间中的一个数据点。有研究人员提出了一种排序算法(local regression and global alignment,缩写为LRGA算法),该算法通过学习一个拉普拉斯矩阵来对数据进行重排序。尽管LRGA算法在检索过程中能够将不同类型的多媒体对象结合起来,但它仍有一些缺陷。首先,尽管多媒体文档距离能够把多种类型的多媒体对象信息都包含在内,但它依赖于该类型的媒体对象的检索精度,这有可能使得某种媒体对象对当前多媒体文档表达语义的贡献变得很小。其次,建立多媒体文档语义空间需要对所有媒体对象的距离都进行计算,这在处理大型多媒体数据库时变得困难,因为随着多媒体文档数据量的增大,多媒体文档距离矩阵也变得异常庞大,这为进一步的处理带来了困难。

新闻全文检索系统的数据预处理技术 第4篇

关键词:分词技术,倒排表,倒排索引,全文检索,Memcached

随着互联网普及和发展,信息量正成几何级数的方式急剧增长。使其信息极为丰富,但人们查找到关心的信息越来越困难。传统的检索系统是通过关系数据库的查询方式来提交查询任务的。例如要查询内容包含“2009年度安徽十大新闻人物”,查询语句为“select*from库表where content=‘2009年度安徽十大新闻人物’”。如果要查询“过去5年中的年度十大新闻人物”通过传统的方式就没有办法查到。基于这种传统关系数据库的查询已经不能适应用户对信息检索服务的要求。全文检索技术作为一种高效、强大的信息检索技术应运而生,近年来受到了广泛的关注,它的出现导致了信息检索领域的一场革命。全文检索,是以各类数据诸如文字、声音、图像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索的手段。与以前的情报检索相比,全文检索提供了全新的、强大的检索功能。全文检索可以直接根据文献资料的内容进行检索,支持多角度、多侧面的综合查询方式,有很高的查准查全率。从而能够为用户提供灵活、方便、快速的信息查询服务。

1 全文检索系统中的预处理技术

全文检索的数据预处理,也就是将数据源信息收集、加工、生成全文索引数据库的过程。全文检索系统包含多个功能模块,但其核心可以分为索引库与全文检索引擎两部分。数据预处理技术主要是解决指如何形成索引库。这里使用的技术顺次为:数据获取,分词技术,倒排索引技术。

1.1 数据获取与整理

解决从结构化数据和非结构化数据的共享统一管理问题。传统的关系数据库为结构化数据,大量的文本,图片注释,音视频注释文件这些已普通文件存放由操作系统的文件管理器来管理的文件为非结构化数据。获取这些原始数据的位置信息和数据库存储信息保存到统一的关系数据库中。为便于下一步的分词处理对与一些如pdf,doc,rtf,html文件一般情况转换成txt文件。其中就涉及到转换时剔除格式信息。如转换html文件到txt文件时就考虑将html的格式信息剔除掉。

1.2 分词技术

分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。分以下几大类。

1.2.1 字符串匹配的分词方法

该方法按照字符串匹配的方向分为三类。

1)正向最大匹配法:就是把一个句子从左至右来分词。举个例子:“不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。

2)反向最大匹配法:"不知道你在说什么"反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。

3)最短路径分词法:就是说一段话里面要求切出的词数是最少的。“不知道你在说什么”最短路径分词法就是指,把上面哪句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。

当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。

1.2.2 词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,处在测试阶段。

1.2.3 统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

1.3 倒排索引技术

倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。倒排索引的创建过程件图1。

2 新闻全文检索系统框架

报社现有的新闻稿件相关的系统有:历史资料库、采编稿件库、个人稿库、其他稿源(新华社稿件、稿件协作平台、图片系统)。通过建立统一的新闻全文检索平台,见图2,供编辑记者提供统一的查询界面,充分挖掘这些资料库的潜力。

3 新闻稿件预处理技术

3.1 数据获取与整理

安徽日报使用的是清华紫光采编系统。采编系统文件放在IBM的DOMINO系统中导。通过lotus管理平台将其中的相关稿件导出并保存。导出的文件是一种包含格式字符的数据集合。这些格式字符对查询系统是无效的字符,必须将其清除掉。保留稿件的有效信息例如:见报日期,标题,作者,部门,稿源,摘要,全文等相关信息。在新闻研究所中的资料库中的历史文档也存在同样的问题。由于其中包含大量的版面和图片信息采取分年度和月份导出的方案。导出的文件统一存储到网络区域存储上去,采集这些文件的存储位置信息和文件名,摘要,文件ID等信息保存到专门的数据库中。

3.2 分词技术

综合分析中文分析技术的优势和逆势以及实现的方便性,新闻全文检索系统中采用正逆向最大匹配双向扫描算法。文件的分词处理过程见图3所示。首先将文本转换成一个个句子。逐个对句子进行分词分析。在分词分析时判断有没有歧义的分词,这个步骤为分词消歧义处理。

3.3 倒排序文件

建立的倒排文件结构如图4所示。

创建倒排索引初始化内存索引,为词汇表使用动态结构,而倒排列表使用静态编码;把列表要么存在可动态调整大小的数组中,或者一个链式块中;读取文档和倒排指针,放到内存索引中,一直这么做直到用完内存;把这个临时索引保存到硬盘上,包括其词汇表。

倒排表在硬盘上的存储是整个算法的主要部分提出了三种方案:1)直接将倒排表放入内存;2)将倒排表存入硬盘上的文件;3)将倒排表及必要的文件存入数据库。直接将倒排标放入内存,占内存比较大。最坏的情况是造成内存溢出,降低了系统的稳定性。将倒排标存放到硬盘上,IO访问频繁降低系统的执行效率,IO资源成为系统的瓶颈。将倒排表及必要的文件存入数据库,效率和性能上是一个折中。现在在中大型的搜索引擎都使用高速缓存技术。

3.4 高速缓存技术

Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度。有专门的文献描述Memcached。采用Memcached高速缓存技术。构建倒排索引建立的索引表以二维数组形式存入内存所有的文档和关键词,同时读入内存索引检索模型直接从内存中读入倒排表、文档以及关键词表。

缺点:当文档数、关键词数目过多时会出现内存不足。例如:有1000个关键词和1000篇文档,则根据以上算法建立的倒排表(二维数组)占据的空间是1000*1000,当其同步增长时,会造成内存的严重不足。由于内存不足,将倒排表存入硬盘,使用过程中部分读入内存尝试建立新的文件结构建立倒排表,在实现过程中出现了很大的困难。尝试使用文本文档存储倒排表,但是无法二维数组进行增加或删除操作,而不影响到别的数据。采用二维数组的方法来存储索引文件。为了使插入、删除、查询等操作更加方便、高效,我们使用数据库来代替了文件流,这使得大量的插入、删除、查询操作都交给了数据库自己操作。

对大型索引采用分块处理索引的模式,在不同的服务器中分块存储大型索引的一部分。在这些索引服务器中再部署Memcached,每台服务器将存储的分块索引表一次性调入内存中。客户端应用程序服务器由事物服务器计算的哈希值来指定由哪台服务器提高服务。每台服务器的Memcached高速内存大小是根据服务器上保存的索引库大小和服务器物理内存来配置。这样可以大大提升系统的检索效率。

4 结束语

新闻全文检索系统是为了给用户统一的平台来访问异构稿件数据的系统。经过数据整理、分词、建立倒排索引,并结合最新的Memcached高速缓存技术给出了对大型索引分块的处理访案。进一步的工作是本体查询技术,在数据预处理阶段构建新闻稿件本体,这样可以利用本体查询大大提高信息查全率与查准率。

参考文献

[1]韩升,刘广志.全文检索系统的数据预处理研究[J].计算机技术与发展,2006,16(3):208-210.

[2]刘莉.数据挖掘中数据预处理技术综述[J].甘肃科学学报,2003,15(1):117-119.

当代信息检索技术实习报告 第5篇

《当代信息检索技术》

实习报告

学院:教育学院 班级:2012级7班 姓名:王静宜

学号:201201440721

一、简答题

1、布尔逻辑运算符有几种?其定义与功能分别是什么?

布尔逻辑运算符有三种,分别是逻辑“与”AND,逻辑“或”OR,逻辑“非”NOT。

定义:A AND B:检索词A和检索词B同时出现在一条记录中。A OR B:记录中出现检索词A或检索词B或两词同时出现在一条记录中。适用于连接具有并列关系或同义关系的词。A NOT B:记录必须包含检索词A但不能包含检索词B。即在含有A检索词的文献中去除含有B检索词的文献。

功能:AND的功能是缩小检索范围,提高查准率;OR的功能是扩大检索范围,提高查全率;NOT的功能是缩小检索范围,提高查准率。

2、什么时候适用于截词检索?

截词检索主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。尤其在英语中检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词符,或称通配符扩展检索词。截词检索可以扩大检索结果。

3、在机检中可以使用什么办法提高检索结果的查准率?

(1)提高检索词的专指度,增加或换用下位词和专指性较强的自由词;(2)增加概念组面,用AND连接相关检索项;

(3)限制检索词出现的可检字段,如限定在篇名和叙词字段中检索;(4)用位置算符控制检索词的词间顺序与位置;

(5)利用限制符、前缀符限制文献的外表特征,如文献类型、出版年代、语种、作者等;(6)用逻辑非NOT来排除一些无关的检索项;(7)进行加权检索,从定量角度加以控制。

4、在信息检索的实际过程中,如果需要扩大检索范围时,如何调整检索策略?

(1)检查检索名词的拼写是否有误;(2)增加检索名词的普遍性——查阅工具如词表,字典, 分类表及字汇表。(3)减少使用逻辑“与”,丢掉一些次要的或者太专指的概念;(4)使用逻辑“或”连接同义词及相关词,或采用分类号检索,增加网罗度;(5)增加被检索的数据库调整位置算符,由严变松,取消某些过严的限制符,如字段限制符、位置算符限制(或者改用限制程度较小的位置算符)(6)在词干相同的单词后使用截词

5、核心期刊的特点是什么?核心期刊的判定标准是什么?与你专业相关的核心期刊有哪些(请列举5种)

核心期刊的特点是集中性、代表性、学科性、权威性、层次性、相对性、动态性;核心期刊的判定标准是刊载论文数量多、品质高,而且能反应出该学科最新研究成果及发展趋势,受到读者重视之学术期刊;与我专业相关的核心期刊有:《学前教育研究》 《外国教育研究》 《教育评论》 《教育研究》 《心理发展与教育》

二、自选教育学专业任意研究课题,使用CNKI、维普、读秀三个检索平台回答以下问题:

1、你的课题名称是什么?你确定的检索词、检索式与检索途径是什么?

我的课题名称是:关于幼儿入学准备的研究 检索词:幼儿 入学准备

检索式:题名或关键词=幼儿 并且 题名或关键词=入学准备 并且 年份=2002-2013 并且 期刊范围=核心期刊

检索途径:CNKI高级检索、维普高级检索、读秀高级检索 2、2002-2013年,该课题发表于核心期刊的研究论文有哪些?分别列出文章名、作者名、发表期刊、刊载时间(至少列举5条。需要注明该期刊是哪一类核心期刊CSCD、CA、SCI、EI、CSSCI,如该期刊同时被多个核心目录收录,则全部注明。如所列期刊为非核心,该题不得分)。检索平台一:CNKI高级检索

1.优质家庭环境的特点:对高入学准备水平幼儿家长的访谈研究 孙蕾;邰宇;于涛 东北师大学报(哲学社会科学版)2009年05期 切实提高弱势家庭幼儿入学准备水平:美国公立幼儿园项目及其启示 何婷婷;王建梁 外国教育研究 2009年05期 起点上的差距:城乡幼儿入学准备水平的对比研究 “城乡儿童入学准备状况比较研究”课题组;盖笑松 学前教育研究 2008年07期 河南省城乡幼儿教育现状调查——兼谈幼儿教育公平柳阳辉 内蒙古师范大学学报(教育科学版)2013年08期 5 公平视域下我国城乡学前教育发展差异分析 洪秀敏;罗丽 教育学报 2012年05期 中国儿童的入学准备:问题分析与促进途径 盖笑松;杨世君;孙蕾 东北师大学报(哲学社会科学版)2008年06期

检索平台二:重庆维普高级检索

1题名:学前一年幼儿入学语言准备的城乡比较研究 作者:刘焱[1] 秦金亮[2] 潘月娟[1] 石晓波[3] 出处:《教育学报》 CSSCI 2012年第5期 题名:学前一年幼儿入学数学准备的城乡比较研究 作者:潘月娟[1] 裘指挥[2] 刘焱[1] 周雪[3] 出处:《教育学报》 CSSCI 2012年第4期 题名:做好新生入学的准备工作 作者:孙娜 出处:《教学与管理:小学版》 2012年第7期 题名:美国圣保罗幼儿教育奖学金项目述评 作者:魏登尖 贺红风 出处:《上海教育科研》 CSSCI 2012年第5期 题名:公办幼儿园儿童入学语言准备现状调查——以河南省为例 作者:杨雪萍 出处:《上海教育科研》 CSSCI 2012年第5期

6题名:起点上的差距:城乡幼儿入学准备水平的对比研究 出处:《学前教育研究》 CSSCI 2008年第7期

检索平台三:读秀(读秀无法选择核心期刊,也未作特殊标记)

3、有关该课题的图书有哪些?分别列出书名、著者、出版社、出版时间、ISBN号(至少列举5条)。

1.《幼儿入学准备》 【作 者】王平

【出版发行】 北京:朝华少年儿童出版社 , 2003.01 【ISBN号】7-5061-1135-7

2.《幼儿入学准备 我要上小学了 智力篇》 【作 者】胡冬娟编

【出版发行】 北京:连环画出版社 , 2006.05 【ISBN号】7-5056-0722-7

3.《幼儿入学准备 我要上小学了 行为能力篇》 【作 者】胡冬娟编

【出版发行】 北京:连环画出版社 , 2006.05 【ISBN号】7-5056-0723-5

4.《新编幼儿入学准备教材 美术·手工准备 下》 【作 者】许巍巍选编

【出版发行】 北京:中国少年儿童出版社 , 2003.01 【ISBN号】7-5007-6427-8

5.《新编幼儿入学准备教材 学数学准备 下》 【作 者】周梅林文

【出版发行】 北京:中国少年儿童出版社 , 2003.01 【ISBN号】7-5007-6423-5

6.《幼儿入学准备 看图说话 新版》 【作 者】谢军编

【出版发行】 北京:中国少年儿童出版社 , 2014.05 【ISBN号】978-7-5148-1644-0

4、通过以上检索结果,你认为该研究领域内的权威学者有哪些?列举五位,选择其中一位,检索其在最近10年中发表于核心期刊的研究论文,分别列出文章名、发表期刊、刊载时间(至少列举5条,如所列期刊为非核心,该题不得分)。

我认为该研究领域内的权威学者有:庞丽娟 冯晓霞 孙蕾 刘焱 盖笑松,我选择庞丽娟进行检索

对权威学者进行检索研究论文

1.《中国学前教育立法:思考与进程》 庞丽娟;韩小雨 北京师范大学学报(社会科学版)2010/05 2.《完善机制 落实义务教育教师绩效工资政策》 庞丽娟;韩小雨;谢云丽;李琳;夏婧 教育研究 2010/04 3.《我国农村义务教育教师队伍建设:问题及其破解》 庞丽娟;韩小雨 教育研究 2006/09 4.《“省级统筹 以县为主”完善我国学前教育管理体制》 庞丽娟;范明丽 教育研究 2013/10 5.《当前我国学前教育管理体制面临的主要问题与挑战》 庞丽娟;范明丽 教育发展研究 2012/04

5、根据以上检索结果,你认为该课题最近10年经历了怎样的发展过程,其最新研究进展如何?(至少500字)?

关于入学准备近十年发展历程和最新进展

入学准备一直是近些年来研究中的热点问题,随着学前教育被更多的学者关注,研究的人越来越多,而且入学准备研究也将成为更重要的研究方向。关于入学准备的研究主要从:概念研究、儿童个体的准备、学校的准备、家庭的准备、社区的准备、评估工具方面着手研究,此外还有学者从影响儿童入学准备的因素、儿童自身的因素、家庭方面的影响因素、社区或居住环境因素进行分析研究。关于幼儿入学准备的研究仍处于探索阶段, 关于幼儿入学准备的概念的研究已经比较成熟,普遍接受的是NEGP的生态化模型,即儿童个体的准备、学校的准备和家庭与社区的准备。在评估工具方面,更多使用的是以往的单一领域内容评估的工具,对家庭和学校的准备状态评估非常少。在学前干预方面,家庭收入和社会经济地位很大程度上决定着儿童学前教育的获得和质量。此外关于儿童入学准备的测量工具的开发、儿童入学准备影响因素,以及对入学准备状态不足的风险儿童进行早期诊断和干预的研究则相对更是薄弱,急待研究者的进一步研究和探索。幼儿入学准备对幼儿的学习有着很大的影响,幼儿入学准备这个课题会不断受学者关注。虽然目前各国对幼儿入学准备的研究不断增加,但是中国对该课题的研究还是不太深入。

三、自拟一个任意专业领域研究课题,使用CNKI、维普、读秀三个检索平台依次回答以

下问题。

1、你自拟的课题名称是什么?它属于哪个学科?中图分类号是什么?对课题内容作简单概述(200字以内)。

我的课题名称是:关于红楼梦评论的研究 属于:中国文学 中图分类号 I207.411 《红楼梦》是一部具有高度思想性和艺术性的伟大作品,成书于封建社会晚期,该书系统总结了中国封建社会的文化、制度,对封建社会的各个方面进行了深刻的批判。不同的人看待《红楼梦》的角度和方式方法不一样,就会有各种对红楼梦的评论,所谓仁者见仁智者见智,学者们对这部书都有自己独到的见解,我们通过学者的视角我们会更加了解这一部旷世奇书,丰富自己的文化底蕴,增长自己对传统文化的理解。

2、检索该课题文献资料需利用哪些数据库、搜索引擎或工具书?

数据库:CNKI、读秀、百链 收索引擎:百度

工具书:CNKI工具书

3、检索该课题文献资料,你确定的检索词、检索式与检索途径是什么?

检索词:红楼梦 评论

检索式:题名或关键词=红楼梦 并且 题名或关键词=评论

检索途径:CALIS外文期刊网高级检索、百链高级检索、读秀高级检索、CNKI高级检索

4、通过拟定的检索词与检索式进行检索,获得的中外文图书、期刊论文、学位论文、会议论文结果有哪些(各列举5条)?

中文图书

1.红楼梦评论 【作 者】王国维著

【出版发行】 长沙:岳麓书社 , 1999 【ISBN号】7-80520-966-9

2红楼梦评论资料选编

【作 者】郑州大学中文系资料室,中国古代文学教研组编辑

【出版发行】 郑州大学中文系资料室 中国古代文学教研组 , 1973

3《红楼梦》评论文选

【作 者】新华日报资料组编印 【出版发行】 1974.12

4《红楼梦》评论

【作 者】南京大学图书馆,中文系古典文学教研组编辑

【出版发行】 南京大学图书馆 南京大学中文系古典文学教研组 , 1974

5《红楼梦》评论选编 【作 者】浙江图书馆编辑

【出版发行】 浙江图书馆 , 1974

外文图书

外文期刊

中文期刊

1.王国维《红楼梦评论》美学思想之思考

作者:黄西华

文献出处:名作欣赏

ISSN:10060189 年代:2014 期号:第17期

页码:70-71 作者单位:南昌师范学院中文系

2.王国维《红楼梦评论》美学思想之思考

作者:黄西华

文献出处:名作欣赏(中旬)年代:2014 期号:第6期

页码:70-71 作者单位:南昌师范学院中文系

3.宇宙的大著述:从《红楼梦评论》看《红楼梦》

作者:周哲良

文献出处:四川职业技术学院学报

ISSN:16722094 年代:2014 期号:第3期

页码:59-61 作者单位:四川职业技术学院

4.王国维悲剧思想之转变:以《〈红楼梦〉评论》与《宋元戏曲考》为中心的考察

作者:来梅

文献出处:嘉兴学院学报

ISSN:10086781 年代:2014 期号:第3期

页码:88-91 作者单位:安徽师范大学文学院

5.王国维与日本明治时期的文学批评:以《红楼梦评论》、《宋元戏曲考》为例

作者:祁晓明

文献出处:文学评论

ISSN:05114683 年代:2014 期号:第3期

页码:174-180

中文学位论文

1论王国维美学思想中的叔本华——《<红楼梦>评论》和“境界”说研究

赖彧煌

福建师范大学

硕士

2003年论王国维《红楼梦评论》中的美学思想及其对西论中化的启示

王斌

辽宁大学

硕士

2011年王国维《红楼梦评论》的悲剧思想探究

王要有

景德镇陶瓷学院

硕士

2010年

4“中间地带”的王国维——从《红楼梦评论》看理解王国维的几种路径

张琳

海南大学

硕士

2011年红楼梦与清代婚姻法律制度评论

万梅

华东政法大学

硕士

2008年

外文学位论文

中文会议论文1文学外译的助力/阻力:外文社《红楼梦》英译本编辑行为反思 江帆 中国翻译学学科建设高层论坛2013-10-19 2 《葫芦庙》中的红楼梦精神——评戏曲新作《葫芦庙》 朱国庆 中国戏剧奖·理论评论奖获奖论文集 2009-06-01 3 周玉清 中国楹联学会会员大典 2006-06-01 4 王国维《红楼梦评论》之今读 刘丽丽 2006贵州省首届古典文学与民俗文化研讨会 2006-05 5 留得枯荷听雨声——关于网上《红楼梦》诗词评论的综述

刘丽丽;王云阁

2006贵州省首届古典文学与民俗文化研讨会

2006-05

外文会议

5、根据以上检索结果,为该课题作一篇简要研究综述(至少500字)。

关于《红楼梦》评论的研究综述

《红楼梦》是中国古典小说最高峰,宗璞先生在王蒙《红楼启示录》一书的序言中说:“《红楼梦》是一部挖掘不尽的书,随着时代的变迁,读者的更换,会产生新的内容,新的活力。它本身是无价之宝,又起着聚宝盆的作用,把种种的睿思,色色深情都聚在周围,发出耀目的光辉。”

关于《红楼梦》的评论,在国内以王国维的《红楼梦评论》最受红学者关注,也是第一篇用系统的理论来评论《红楼梦》的著作。王国维的《红楼梦评论》于1904年发表在《教育世界》上,这本书运用了西方哲学和悲剧意识的理论对《红楼梦》进行系统的评论和分析。虽然其中有些观点逻辑力量不足,结论有待商榷,但是行文缜密,观点明确。指出《红楼梦》是“悲剧中之悲剧”,第一次从理论上阐明了《红楼梦》的悲剧性。不少学者就王国维研究的基础上对《红楼梦》进行研究评论,越来越多的学者都考虑了多方面的因素。

此外关于《红楼梦》的评论还体现在诗词文学艺术方面,《红楼梦>中韵语体裁众多,如诗、词、曲、赋、歌谣、灯谜、酒令、对联、偈语、诔、赞等应有尽有。然而才华横溢的曹雪芹对此却驾熟就轻。《红楼梦》有诗云:“满纸荒唐言,一把辛酸泪。都云作者痴,谁解其中味”。有学者认为其创作构思巧妙,且内藏玄机、不易把握,理解其中的诗词无疑是解读《红楼梦》的一把钥匙。评论书本身要从评论诗词开始。

在《红楼梦》评论的研究中中国学者占了相当大的比例,在外国可能由于文化的隔阂,鲜有外国学者研究《红楼梦》评论。就中国学者对《红楼梦》评论的研究也趋于饱和、完善,各个学者对《红楼梦》从词句、诗词、名俗、建筑、人物、服饰小说构思等各方面对小说进行评论。

全文检索技术 第6篇

[关键词]USFlD;绿色技术;专利;检索

(中图分类号]G255.53

[文献标识码]A

[文章编号]1008—0821(2012)08-0027—05

对于“绿色技术”,目前尚无统一的定义。欧洲专利局(European Patent Office,EPO)将其定义为适合环境的技术(Envionmentally Sound Technologies,ESTa),其目的是应用环境科学保护自然生态和资源,以消除人类参与导致的负面影响,其目标是确保环境的可持续发展。自1992年《联合国气候变化框架公约》(United Nations Framework Convention on Climate Change,UNFCCC)制定以来,加强“绿色技术”创新与转移一直被认为是解决全球气候变化问题的关键。特别是1997年《京都议定书》签署以来,人们对气候问题的认识不断加深,全球范围内对该领域的研发投入持续上升,“绿色技术”专利活动快速发展。世界自然基金会发表报告指出,“绿色技术”中的清洁能源技术是21世纪人类最具潜力的技术之一,预计到2020年,全球清洁能源产业的产值将达2.4万亿美元,成为继汽车工业和电子工业外的世界第三大工业。在美国,“绿色技术”更是被提到国家战略的高度,专利战略在“绿色技术”创新中也得到了较为充分的运用。EPO的调查显示:清洁能源技术专利申请最多的国家依次是日本、美国和德国。从2005—2009年,美国在“绿色技术”领域的专利年均增长率达8.1%。这些数据充分说明,在以“绿色、低碳”为主题的新一轮经济增长中,美国正利用其专利战略,期望率先抢占“绿色技术”制高点。对于今天的中国,“绿色技术”的发展有着举足轻重的地位,面临日益严重气候问题,促进“绿色技术”创新成为当务之急。

然而,“绿色技术”在全球范围内还属于一个新兴的产业,要促进其创新需要大量投入,是潜在利益和风险共存的。盲目的创新,会导致产品市场化阶段的失败,不能收回技术开发阶段的投资,挫伤再次创新的积极性,造成恶性循环。因此,对所在领域技术现状与发展方向的掌握是开展准确高效的技术创新的基础。专利文献呈现了各领域200年来的创新成果,80%可得技术信息都出现在专利出版物中,并且常常不会在其他地方再现。数据显示,1990—2009年,全球公开了11万余篇绿色技术专利申请。这些专利文献是我们进行研究和创新的一个重要窗口。特别是对“绿色技术”领域而言,大部分的先进技术掌握在发达国家手中,发展中国家所掌握的技术较少,特别是核心技术更少。美国专利商标局(United States Patent and Trademark Offiee,USPID)所接受的碳捕捉、碳储存、生物质能、地热能以及水力海洋能源等方面的专利申请居全球第一位,而在太阳能、风能等方面的所接受的专利申请居全球第二。可以推测,USPTO的专利数据库中包含有世界上最领先的“绿色技术”发明。因而,要推进我国“绿色技术”的创新与发展,对USPTO的专利数据进行检索与分析必不可少。本文试图在目前USPTO专利数据库的基础上,探讨有效的检索方法,准确、全面地检索出在USPTO申请的“绿色技术”专利文献以指导其技术创新工作。

1 “绿色技术”专利检索的目的

所谓“知己知彼,百战不殆”。作为一名技术研发人员,我们不仅要知道如何保护自己研发出的“绿色技术”,而且要避免对他人的“绿色技术”专利造成侵权,更重要的是,在进行技术研究和投入之前,我们要对本领域的技术发展情况有所掌握,避免盲目的研究投入。因此专利资源已成为技术创新信息的重要来源之一,企业对产业内专利文献的检索也成为一种必要的行动。对于“绿色技术”研发人员而言,专利检索至少有以下4个方面的作用:其一,对现有“绿色技术”有一个把握,避免重复研究;其二,追踪竞争对手的研发活动情况;其三,避免侵权;其四,提高自身专利申请的质量。根据检索目的不同,专利检索大致可以分为以下3种。

1.1 可专利性检索

可专利性检索,也叫做创新性检索,是针对某个发明方案而言的,一般发生在准备申请专利阶段,其目的主要是判断拟申请的“绿色技术”方案是否可以获得专利(即是否符合专利的“新颖性、创造性、适用性”),如果可以获得专利的话,哪些已经公开的专利和非专利文献与该技术方案相关,所以可专利性检索也可以称为现有技术检索。如果我们要向USPIO申请美国的专利保护,则必须对已经在USPIO提出的类似专利申请有一定的了解,从而节省专利申请的时间和金钱,避免不必要的纠纷。

1.2 侵权检索

侵权检索的目的是在技术使用过程中确认有没有侵犯他人的知识产权。同时,任何单位或个人在从事新课题研究之前,也应当查阅专利文献,了解是否有侵权的危险,避免盲目研究。企业向国外出口新产品时,也应该检索出口目的国的专利文献,判断是否会造成侵权。因此,如果我们要向美国出口“绿色技术”有关的产品或者服务,就应该事先通过专利检索对该领域的专利情况做一个了解。

1.3 技术现状检索

技术现状检索是分析某一领域专利技术全貌会用到的一种检索,与前面两种检索不同的是,这种检索不仅仅集中于某个单一专利,而是对特定技术领域的所有专利文献和非专利文献进行全面的检索以反映整个技术的现状和发展趋势。对某一领域技术信息全面而准确的梳理能有效地了解该领域的技术发展方向,预测技术的发展趋势,引导企业技术创新。

2 “绿色技术”专利检索的实践及其存在问题

专利检索的查全率与查准率是进行专利信息分析、指导技术创新的基础。然而,由于“绿色技术”目前是一个新兴的产业,如果使用传统的专利检索方法很可能会造成检索结果的不完整或者不准确。

2.1 关键词检索及其存在的问题

就像检索学术文献一样,很多“绿色技术”专利分析在获取专利时,选择关键词来进行检索。例如,王永和汪张林(2011)利用关键词检索对新能源专利情况进行初步分析,潘雄锋等(2010)以专利名称和摘要为检索字段,采用VB软件设计检索程序,最后统计出新年能源专利的相关数据。但是,值得注意的是,在没有仔细了解技术背景之前,盲目用关键词进行检索的风险是非常大的。

(1)很多国家的专利数据库平台只包含1970年代以后的专利文献的全文,而更早的专利文献只包含标题和摘要,或者连标题和摘要都没有。例如,USPTO的专利数据库中,对1976年以前的专利只有专利号、日期和专利分类号的。在近400万的美国专利数据中,几乎有一半的文献用关键词检索是看不到的。而笔者通过检索发现,25条在USPIO最近公布的与风力涡轮机有关的专利中,引用了350个专利,其中21个专利在1976年前就公布了,14个专利在1950年前就公布了,最老的引用专利是1880年。因而,在很多情况下,我可能要参考更早以前的专利技术来指导创新,而关键词检索无法为我们收集到这些专利文献。

(2)关键词检索还存在一个不同语言专利数据库之间的转换问题,在USPIO检索美国专利的时候,我们需要把关键词翻译成英语。而且在有些支持多语言的专利数据库中,例如,欧洲专利数据库(esp@cenet)和世界知识产权局(World Intellectual Property Organization,WIPO)的数据库(PATENTSCOPE)中包含中文、日文和韩文多种语言的专利。尽管有些专利的提名和摘要翻译成了英语,但是大部分都没有翻译成中文,因而使用一种语言的关键词就会出现检索结果不准确的情况。

(3)由于自然语言常常有一词多义的现象,可能造成输入一个关键词,会查到众多的专利记录,而其中混杂了大量不相关的条目。如,ABS:可以是汽车抗抱死系统的缩写(Antilock braking systems),也可以是化合物丙烯腈一丁二烯一苯乙烯的缩写(Aerylonitrile—butadiene—styrene)。

2.2 专利分类号检索及其存在的问题

如前所述,关键词的确定和选择有时候是非常困难的。因此,如果有一个统一完整的分类系统帮助限定词义的范围,会大大提高检索的准确度,节约时间。因此,包括美国在内的很多国家和地区都依据一定的标准,先后对专利进行了分类。并且国际专利合作条约(Patent Cooperation Treaty,简称PCT)也建立了一个世界性的专利分类规则,即国际专利分类法(International Patent Classification,简称IPC)。目前,主要专利分类包括以下3种类型:

2.2.1 国际专利分类

目前国际通用的专利分类方式只有一种,即IPC。IPC是根据1971年签订的《国际专利分类的斯特拉斯堡协定》编制的,其主要目的是作为一种有效的专利检索工具以便专利审查员和其他使用人员进行检索。由于IPC本来就是为专利检索的方便而设计的,因而是一种通用而简便的途径,大多数的政府专利检索网站和商业网站都提供此类检索。但是,IPC所实行的主要分类标准是技术的功能,即按发明的内在特点与性质进行分类,而不是按照其用途分类。

2.2.2 国家或地区专利分类

由于国际专利分类号不适用某些技术种类的检索,特别是以技术的应用来做分类的检索。因而,发达国家和地区为了检索的方便,相继制定了一些国家或者地区标准,例如欧洲专利局分类(European Patent Office Classification,以下简称ECLA),ECLA对IPC分来进行了细分,它包含129200个分类(比IPC多6000多条)。美国也有自己的专利分类标准(U.S.Patent Classification,以下简称USPC)体系,与IPC不同的是,USPC采用的是多种标准对专利进行分类,包括行业、功能、生产程序和结构。每件专利按照上述标准中的1个或者多个来进行,并且并不是每个专利的分类标准都是一样的。1830年前,美国的专利文献按年代顺序排列,1831年首次颁布了专利分类法。当时只是将不同的技术领域分成16个组,将所有的专利文献按16组分类,并在文献上标上分类号,直到1837年才制定了新的分类表,设置22个大类。100多年来,随着技术的发展,分类表不断修改完善,逐渐形成了一套仅用于USFIO内部使用的分类体系。按照该分类体系,编排分类检索文档,供审查检索使用。1969年1月7日,USFIO在其出版的专利说明书及公报上标注与本国专利分类相对应的国际专利分类号。

2.2.3 一些商业专利数据库的分类

除了国家和国际组织间的专利分类外,一些商业专利数据库也建立了自己的分类标准,例如,1948年成立的、全球最权威的专利情报和科技情报机构之一德温特(Derwent)为了实用科研人员的习惯和应用,提高标引的一致性,就根据需要制定了自己的分类标准。

鉴于专利分类号对每种技术作了明确的分类,因而相当一部分的专利检索都是通过专利分类号来完成。但是,由于“绿色技术”专利的特殊性,依靠传统的专利分类号进行检索都很难达到应有的效果。

(1)“绿色技术”是一个新兴的领域,目前在各专利分类系统中都由于没有明确的“绿色技术”分类。

(2)“绿色技术”属于跨学科、跨领域的技术,目前尚无统一的有关应对气候变化专利技术的专门分类体系,很难基于现有的IPC等专利分类系统来识别相关技术发明。例如,在“绿色技术”中有一类是碳捕捉技术,是指减少温室气体排放的相关技术。但是,目前在IPC及USPC中都没有特别对这类技术进行分类。如图1所示,在IPC中最接近的是13011353/62。但是,在实践中,通过这样的分类并不能检索到全部的二氧化碳捕捉相关的专利技术。因为它仅涉及化学和生物净化,不包括其他常用的分离技术,吸附或冷凝等。另外,它涉及到所有的碳氧化物,在一般情况下,其中还包括一氧化碳。一氧化碳是一种化学工业上常用的物质,但是它毒性很强,因为在很过工业领域都涉及到一氧化碳的分离。因而,我们检索出来的很多专利可能是一氧化碳的捕捉技术,而非二氧化碳的捕捉技术。

3 USPTO“绿色技术”专利的检索策略

为改善获取“绿色技术”专利文献中存在的问题,USPIO于2009年6月正式推出“环境友好型”技术专利分类索引(Environmentally Sound Teehnologles Concordanco,EST Concordance)。该EST Concordance基于现有UPSC和IPC分类体系,在不改变已有分类标准的基础上专门针对应对气候变化相关技术的特定专利群的重组,以此作为EST Coneordance的指导原则。该分类索引是目前基于IPC分类体系的气候变化减缓技术专门体系的范本之一。EST Concordance将所有与应对气候变化有关的专利划分为5个大类(可替代能源、能源存储、环境友好型农业、环境净化、保护或修复以及EST相关规则、设计或教育),共74个子类及细类。表2显示了其中可替代能源的分类。USPTO在其网站为EST Concordance创建了完整链接,可以迅速而方便地直接通过链接最终获取相关专利数据,由此USFTO已经基于UPSC和IPC分类体系标准构建起了专门的有关“绿色技术”的EST专利数据库。USPTO通过这种方式不仅为用户创建了方便“绿色技术”专利申请及信息获取的便捷通道,而且为构建“绿色技术”专利数据库提供了便捷高效的选择。

因此,要获取在USPTO申请的绿色技术专利,可以直接进入EST专利索引,然后找到自己想要的技术领域通过UPSC的链接直接进行检索。

4 专利检索结果的修正与精确

值得注意的是,EST Concordance也只是对“绿色技术”的一个分类指导而已,并不是每一种“绿色技术”都可以毫无遗漏的被检索出来。如果要对“绿色技术”任何一个领域的专利做全面、准确的检索,仅仅靠EST ConeonJanee是不够的,必须从以下几个方面进行完善。

4.1 配合EST技术国际专利分类索引进行检索

WIPO一直关注气候变化所带来的技术挑战,以及知识产权对于应对气候变化的作用,并致力于同各方合作推动世界知识产权及专利体系的改革和发展。为解决有关“绿色技术”专利分类及专利数据库建设问题,WIPO专门成立了国际专利分类修订工作组。该工作组于2010年2月发布了有关EST技术的国际专利分类索引列表,该索引将EST技术分为4大类(空气污染控制/消除、水污染控制/水及废水管理、固体废物管理和可再生能源),对应每一分类给出了所有相关的国际专利分类号。

WIPO的EST国际专利分类索引体系建成后,成为有关气候变化减缓技术专门分类的国际标准,同时也将成为IPC体系改革和发展的新里程碑。WIPO与USPTO有的EST Concordance有相同之处,也有不同的地方,因此可以将两者结合起来使用。相对来说WIPO的分类更为详细,例如对于生物燃料,从表1中我们可以看到:USPlD的ESTConcordance中只有一个概况的分类ClOL 5/00,而在WIPO的EST国际专利分类索引中却细分为:固体生物燃料、液体生物燃料、沼气和从基因工程中提取的生物燃料4类,并且固体和液体生物燃料还进行了细分(具体参见表2)。由于USFTO的专利数据库不仅支持美国专利号的检索,同时也支持IPC检索,在需要更精确的“绿色技术”专利的时候,我们可以在IPC中直接输入相应的EST国家专利索引中的IPC号进行检索。

4.2 通过设计检索流程精确检索结果

尽管USPIO和WIPO都对“绿色技术”专利做了特别的专利分类号和索引,但是这些分类仅仅是一个概况性的总结,并不是说包括了所有的“绿色技术”专利文献,同样的在这些专利分类中也可能包含并不是“绿色技术”的专利文献。因而,在初步检索的基础上,应该根据检索的要求对结果作进一步的修正。为了得到更全面、准确的专利数据,我们可以采取图2的5个步骤。

5 结语

面对国际金融危机背景下的竞争形势,各国纷纷加大对战略性新兴产业及相关科技创新的投入,加快对新兴技术、知识产权和产业发展的布局,力争借此抢占新一轮经济发展制高点。据不完全统计,美国投入到替代能源、电动汽车等新兴产业方面的研发及知识产权保护费用已达到每年700多亿美元。作为一个能源消耗日益增长的发展中国家,我国要实现向低碳经济发展的转变,要促进新兴产业的发展,增强绿色产业的国际竞争力,必须加快“绿色技术”创新与发展。无论是积极引进,还是自主研发,最重要的是掌握关键的“绿色技术”。但是,就“绿色技术”的发展状况而言,发达国家或地区拥有最先进的“绿色技术”,而这些国家已经公开的专利文献则是重要的技术信息来源,因此积极利用国外的专利文献资料是“绿色技术”创新的基础。

全文检索技术 第7篇

一、全文检索

在信息化的推动下,已经数字化的海量档案信息资源,需要合理有效的管理利用。如何从大数据中迅速而准确地查找并定位到有效的资源,就变得尤为重要。全文检索这一技术的应用,为数据资源的利用提供了最为有效的方法。

全文检索其实就是一种自然语言的检索工具。它是以数据库为基础,要求用户通过自然语言来获取原文的相关内容。它针对文档中的每一个段落、每一句话、每一个词进行检索,记录下它们在文档中位置以及出现的次数,再将它们倒排列至新建立的索引库中[1]71。一旦用户提出查询请求,输入所要查询的关键字,系统便在新建立的索引库中快速检索,最后再将查询的结果回馈给用户。

二、Lucene

Lucene是一个基于Java开发的,已经开源的全文检索架构,而不是完整的全文检索系统。它不仅具有完备的查询、索引功能,而且它的开发成本也比较低,只需做二次开发,便可根据需求,实现快速的搜索工作。创建索引、搜索索引是Lucene的两项工作核心。工作方式可描述为:首先将文档中的文本进行分词,按倒排序的方式传入索引的存放路径,再为该目录上锁,并进行存储。如有用户进行查询,可指向索引文件夹,再解析查询语句,生成一个查询对象,再调用方法进行查询,最终将搜索到的结果返给用户。

三、档案系统中全文检索的研究与实现

1.总体框架的设计与搭建。全文检索一定要具备必不可少的人机交互界面,以及最为重要的系统内部处理模块。用户在人机交互界面上输入需要检索相关内容的关键字,系统便在后台针对关键字进行全文检索的处理,检索完成后,将检索的结果反馈给用户。后台的系统内部处理模块,主要有创建分词库、检索的索引创建、查询检索关键字等重要模块。

2.文件的预处理。Lucene的自身特点就是只能对于单纯文本进行操作。而现在档案文件的存储是多样化的,并不是纯文本格式。为了兼容馆藏文件类型,将对包括常见的PDF文档、XLS文档、WORD文档做转换的预处理,通过数据解析,只抽取其中的文本部分,这样就可以用纯文本的方式进行再存储,Lucene就可以对文档进行分析操作[2]12。POI通过Java提供的应用程序编程接口,可以对Microsoft Office格式档案进行读和写。PDFBox也是基于Java开发的,是为开发人员读取及创建PDF文档而准备的。它可以提取包括Unicode字符在内的纯文本,与Lucene的整合也很简单。因此,XLS文档、WORD文档的文本可以利用POI来进行抽取,PDF文档的文本可以利用PDFBox来进行抽取。

3.分词。基于Lucene的二次开发,使得我们可以通过人为的定义Document中的Field来确定如何分词。如果可以在大数据中比较全面而又准确的定位到用户想要的检索结果,分词就成为了一项关键技术。如果分词不准确,就会直接影响用户想要的最佳结果。

我们知道英文之间的分词可以通过空格来体现,进行直接的拆分。而所有的中文只能用标点符号进行拆分,中文字符都是以编码的形式存储在计算机中。中文分词就是以最小的单位进行操作,比如“青铜戈形权杖”,分词后可变为“青铜、铜戈、戈形、形权、权杖”。如果再细化,只细化到单个字“,石磨”就会被分为“石、磨”,而且“磨石”也会被查出来。分词方法也有很多种,比如基于统计的分词法、机械分词法,还有基于理解的分词法等等。每一种分词法都有自己的优缺点,而我们的全文检索技术主要的工作范围是大批量的数据,分词使得最终的检索精度与速度都是比较高的,这才是我们最需要的分词方法。盘古分词也是一个开源的系统,它在切分中文时具备很多的优点。由于Lucene有自带的Standard Analyzer分词器,为了整合盘古分词的优点,我们可以将盘古分词进行封装,再与Standard Analyzer分词器之间做接口。利用可以调用盘古分词接口的DBRGAnalyzer分词器,切分用户想要查询的关键字,再将分词token优化,生成token流,也就是对最终的查询进行相关格式的转换,再将其进行输出。

具体过程可以分析为:首先选取档案数据库中的数据,根据用户输入所要查询的关键字对每一个词进行历遍,再对文档中所搜索出的的关键字进行匹配。一旦发现有相匹配的词,就会记录下该文档的名称,这个关键字所在位置,以及该关键字出现的次数等相关资料信息,同时这个结果会以文件的形式存至分词的索引库内。

对已经存档的文件,只生成一次分词索引即可。如果再有新文件存档,只要将新文件进行分词索引处理,再将新生成的索引文件与原来所有关键字索引文件库合并即可。每当分词索引库有变化,我们只要将存档文件按照新增加的关键字再进行一次分词即可。

4.索引。全文检索索引的建立,也就是一种排序的过程,只是它应用的是反向的索引排序。系统会按照文档关键字在检索这一过程中所出现的次数进行排序。当用户通过对关键字检索内容时,系统会按照用户点击索引文档的次数进行排序,每当该文档被用户点击一次,它的权值就加1。显示查询结果的文档时,权值高的排在…………………………………………………………………………前面[3]65。在这一创建的过程中,先对该文档的数据进行分析,与此同时,也对文档中的关键字进行分析。再与这些关键字相关的(包括文档名称、关键字所在位置、关键字出现次数等)属性逐一对应,最后再将这种模糊查询转化成为精确查询。这样就使全文检索的查询得到充分利用,当然也就提高了查询的效率。

在建立完索引后,系统就会建立索引分析器。索引分析器,顾名思义就是对目标文档进行分解分析的操作。这样,就会对各式文档类型的文本进行操作转换,得到一种适合系统操作的中间格式。当完成前面的一系列操作,就可以建立索引生成器。一旦发现有新的索引记录,就会将新的索引记录添加到索引器中。与此同时,该文档也会被存入存储器中,以便于日后用户查询结果时,可以随时下载该文档,方便用户查阅。

完成上述工作的基础上,系统也会有包括添加、修改和删除等完善性的优化工作。首先系统会建立一个索引修改器,再根据用户需求来进行添加、修改和删除等工作,最后对文档进行索引的优化处理,再将索引文件关闭。

档案索引的工作流程就是,首先由用户键入需要查询的关键字,该关键字会在已有的关键字库中查询,一旦找到,就会通过分词库中的已分词进行逐一匹配,再按照最终的结果来启动档案文档的分词器。此时分词器也会根据档案文档的分词库的关键字来进行分词,同时创建索引文件,之后再将新创建的索引文件与原来的索引文件合并,最后存入原索引文件库中,以此来完成索引文件数据库的更新。

5. 系统测试。本系统测试选择的操作系统为Microsoft Windows7,浏览器为IE8、Firefox。测试数据为锦州市博物馆自1953年至2015 年约40000 份馆藏档案。

我们随机选取博物馆馆藏档案中经常出现的三个关键词———“三级文物”“、旧藏”和“清代”。

如果使用本系统的全文检索技术,这三个关键词可检索出的文件数分别为:14113、4074 和1184。查全率(也就是反馈给用户查询结果中正确的个数/ 数据库中正确的个数) 分别为:100、97 和95。耗时为(单位:秒):14.6、10.2 和8.6。

如果使用数据库的模糊检索技术,这三个关键词可检索出的文件数分别为:14113、4074 和1184。查全率分别为:91、85 和83。耗时为(单位:秒):43.5、24.7 和19.4。

综上可以看出该测试结果基本达到我们所预期的效果,全文检索不论在检索时间还是在查全率方面,都要优于数据库结构化的模糊检索技术。

摘要:现代信息化数字化的档案资料规模越来越大,如果继续使用现有的结构化的模糊查询语言,会降低查询效率。基于Lucene架构的全文检索技术,为大规模的档案资料查询和管理提供了高速而又准确的方法。

全文检索技术 第8篇

海量数据是指规模巨大的、空前浩瀚的数据。随着计算机技术的发展, 民航部门需要面对的数据量越来越庞大, 如各种空间地理数据、报表统计数据、航行情报资料、客户关系管理信息等, 如何对这些海量数据进行科学分析和高效处理, 已经成为民航部门急需解决的问题。

数据挖掘是一种深层次的数据分析方法, 它应用垃圾过滤、文本聚类、全文检索等技术, 从大型数据库或数据仓库中提取出人们感兴趣的信息和知识, 而这些信息或知识是隐含的, 事先未知但却潜在有用的, 提取的知识可以用概念、规则、规律、模式等形式来表示。因此, 可以在数据挖掘领域中, 利用全文检索技术, 从海量数据信息中快速查找到所需的特定内容, 从而解决民航部门在信息检索等业务应用上的需求。

2 全文检索技术

对于海量的非结构化的数据, 如文件等, 当需要查找特定文本内容时, 如果采用传统的关系数据库来存储文件内容, 再通过like等关系符去比较, 系统将对全表进行扫描, 从而造成资源耗费大、查询速度慢、实现功能有限等问题, 而采用全文检索技术则能高效地解决海量数据查找的需求。

全文检索就是指计算机索引程序通过扫描文章中的每一个词, 对每一个词建立索引, 当用户查询时, 检索程序就根据事先建立好的索引进行查找, 并将查找的结果反馈给用户的一种检索方式。这种检索方式以全文本信息为主要检索对象, 允许用户采用自然语言根据资料内容而不是外在特征来实现先进查询, 是过滤信息、发现信息、信息安全控制等应用的主要技术基础。

经过几年的发展, 全文检索从最初的字符串匹配已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理。由于内涵和外延的深刻变化, 全文检索系统已成为新一代管理信息系统的代名词。衡量全文检索效果的基本指标主要包括:

(1) 查全率:即检索出的相关资料量与系统库中相关资料的总量的比率。

(2) 查准率:即检索出的有用资料数量与检索出的资料总量的比率。

(3) 检索速度:即从提交检索请求到查出资料结果所需的时间。

目前, 以全文检索技术为核心的搜索引擎已成为互联网上的最活跃的应用。全文检索技术在智能化、网络化的方向上正呈现出良好的发展趋势, 具有广阔的发展空间。

3 Oracle全文检索技术

3.1 Oracle Text的文件存储方式

Oracle作为大型的数据库管理系统, 具有强大的文本检索和智能化的文本管理能力, 这一能力是通过Oracle Text组件实现的。Oracle Text支持的文件类型包括:

(1) 纯文本文件。

(2) Html文件。

(3) Xml文件。

(4) 特定格式的文档, 如:doc, pdf, ppt等。

要实现文本的全文检索, 首先必须把正确的文本加载到数据库表中, 并在创建索引时用“存储选项”参数进行设置。文档在表中的存储方式分为3种:

(1) 文档内容直接装载在库表的单列或多列中 (DI-RECT_DATASTORE或MULTI_COLUMN_DATASTORE)

(2) 文档存放在外部文件系统中 (FILE_DATASTORE)

(3) 文档的URL存放在表列中 (URL_DATASTORE)

默认情况下, 系统将文档内容直接装载在表列中。列类型支持VARCHAR2、CLOB、BLOB、CHAR或BFILE。

3.2 Oracle Text的体系结构

Oracle Text的体系结构如图1所示。

Oracle对文档建立索引的逻辑步骤如下:

(1) 数据存储逻辑搜索表的所有行, 并直接读取列中存储的数据内容, 或根据列中存储的指针从文件系统中读取数据。

(2) 过滤器提取文档数据并将其转换为格式化的文本表示方式。为了使Oracle的全文索引能识别doc, pdf等绝大部分常用格式文档, 在建立索引的时候需要制定inso_filter参数。过滤器的输出可以是纯文本格式, 也可以是XML或HTML的文本格式。

(3) 针对不同的文本格式, 分别采用不同的分段器, 提取过滤器的输出信息, 检测重要文档段标记, 移去不可见的信息, 对文本重新进行格式化, 最终将数据转换为纯文本信息。

(4) 词法分析器提取分段器输出的纯文本内容, 并将其拆分为不连续的词语标记。针对不同的语言, Oracle Text提供了不同的词法分析器, 常用的有两种:

1) basic_lexer:针对英语, 它能根据空格和标点来将英语单词从句子中分离, 还能自动将一些出现频率过高已经失去检索意义的单词作为‘垃圾’处理, 具有较高的处理效率。

2) chinese_lexer:针对汉语, 能识别大部分常用的汉语词汇, 分析汉语语句具有较高效率。

(5) 索引引擎提取词法分析器中的词语标记、分段器中的段落偏移量标记, 并结合常用词库、停用词库, 对文件构建起一个以词语为目录的索引, 实现从词语到文件的快速映射功能。

4 业务应用模式

在实际业务环境中, 可以采用Oracle 10g以上版本对各种格式和类型的数据资料进行管理。通过在数据库中建立关系表, 记录资料编号、标题、关键词、内容简介、附件名、附件类型、附件大小等属性信息。同时, 专门设置一个fileindex字段, 字段类型为bfile, 用于记录附件的全文索引信息, 附件本身则存放在外部的文件服务器上。再应用Oracle Text的全文检索技术, 提取附件中的文字信息, 建立全文索引, 实现特定信息的快速查找功能。

4.1 创建全文索引的步骤和方法

(1) 创建目录对象filemanagedir, 将索引和附件进行关联 (假设附件存放在d:attachment目录下) :

create or replace directory filemanagedir as'd:attachment'

(2) 创建中文的词法分析器对象mylexer:

(3) 在fileindex列上创建全文索引对象 (假设数据库中存放资料属性的表名为tmaterial) :

(4) 当用户发布一份新的数据资料时, 需要提取资料的各项属性信息, 保存到数据库中, 同时设置此资料的全文索引:

update tmaterial set fileindex=bfilename ('filemanagedir', 附件名) where id=资料编号

4.2 同步和优化全文索引

当全文索引创建之后, 还需要对索引对象定期进行同步和优化, 以保证前端的应用程序能迅速检索出最新发布的资料信息。

(1) 同步索引

(2) 优化索引

在实际应用中, 可以将同步和优化索引的操作写到批处理文件中, 同时在操作系统的任务计划中设置此批处理文件定期自动执行的时间, 从而实现对全文索引的自动同步和自动优化。

4.3 关键词全文检索

以底层数据库中的全文索引为支撑, 前端应用系统可以为用户提供丰富的检索功能, 用户可自定义条件对资料的属性进行查询。同时, 可设置关键词, 对资料正文的内容进行全文检索, 迅速查找出文件内容包含有此关键词的所有资料。这种基于文件内容的检索方法, 与仅仅针对标题、内容简介等字段进行字符串匹配的方法相比, 能获得更全面更有价值的信息。

关键词检索的步骤如下:

(1) 用户设置检索条件, 向服务器发出检索命令。

(2) Oracle接收命令, 解析检索条件, 组成标准的SQL语句提交给索引引擎。其中, 全文检索的SQL语句采用函数contains实现, 类似为:

select*from tmaterial where contains (fileindex, ’关键词’) >0

(3) 索引引擎在全文索引的目录中查找匹配项, 将满足条件的记录返回给用户。

(4) 用户通过记录中的文件属性定位到外部服务器上的实际文件, 打开查看。

通过此关键词全文检索功能, 用户可从海量的数据资料中快速查找出相关主题的内容, 并可选中资料, 打开附件原文查看。这一功能的实现, 可以为海量数据的综合分析和研究提供有效的手段。

5 结语

利用Oracle的全文检索组件来实现特定主题内容的资料筛选, 是将大型数据库管理系统与海量数据挖掘相结合的一种方法, 旨在于充分发挥出Oracle先进的数据管理技术, 解决在大数据分析和研究工作中的一些实际需求问题。该功能能够为海量数据的内容分析提供较好的支持, 在民航系统具有较大的应用价值。

参考文献

[1]李晓晖, 朱毅, 唐慧佳, 王燮.基于Oracle的文献资料库全文检索技术.成都信息工程学院学报, 2003, 2.

[2]陈天伟.基于Oracle Text电子政务全文检索技术的应用.办公自动化, 2007, 1.

基于内容的视频检索技术 第9篇

一、引言

随着多媒体技术的发展和信息高速公路的出现, 数字视频的存储和传输技术都取得了重大的进展。视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索只能通过快进和快退等顺序的方法人工查找, 因而是一件非常繁琐耗时的工作, 这显然已无法满足多媒体数据库的要求。用户往往希望只要给出例子或特征描述, 系统就能自动地找到所需的视频片断点, 即实现基于内容的视频检索。

二、内容

1. 视频数据

1.1视频数据的结构

描述视频 (包括描述它的元数据) 可从以下3个方面进行索引。 (1) 文献数据。包括有关整个视频的信息 (例如标题、摘要、主题、类型等) 以及制作视频的个人信息 (例如制片人、导演、演员表等) 。传统的视频检索主要依靠这些元数据, 这些数据往往需要手工输入 (2) 结构数据。视频数据从结构上自顶向下可分为电影、场景、镜头和帧。 (3) 内容数据。表示视频的语义内容, 它包括音频数据、镜头内的一组代表帧或运动物体、由字幕得到的文本关键字以及从视频数据中提取的特征向量等。

2. 关键技术

镜头分割视频流中的镜头, 是由时间连续的视频祯组成的。它对应着摄像机一次记录的起停操作, 代表一个场景在时间上和空间上的连续动作。镜头之间有多种类型的过渡方式, 最常见的是“切变”, 表现为在相邻两祯之间发生的突变性的镜头转换。此外, 还存在一些较复杂的过渡方式, 如淡入、淡出等。镜头分割方法分为肺压缩域和压缩域两类。

2.1特征分析

特征分析的基本特征分析包括:颜色, 纹理, 形状, 运动和对象等。前三种是图像和视频共有的, 数据数字图像处理中较为成熟的技术。对象提取和跟踪是视频分析中最困难的部分, 可利用运动信息进行处理:先将每祯图像分割成具有相似视觉特征的区域, 然后根据各个区域的运动特征, 按照一定的约束将他们合并成对象。

(1) 全局运动向量检测。全局运动模型取决于摄像机运动, 要获得全局运动模型需要检测摄像机的运动, 常用的方法可分两类:非图像方式和图像方式。非图像方式针对摄像机的各种操作建立操作的模型, 在拍摄的过程中直接提取参数, 但这通常需要额外的设备;图像方式则采用基于运动向量的参数模型, 利用图像技术获取运动向量, 从而建立模型。 (2) 局部运动向量检测。视频中的局部运动指场景中的目标运动, 它可看作与全局运动模型不相符合的部分。理论上说, 局部运动向量应是实际运动向量与全局运动向量之差, 但是, 实际上却不能直接将块匹配算法的结果减去由全局运动模型恢复出的运动向量当作局部运动向量。

2.2镜头聚类技术

镜头分割常基于视觉特征进行, 这表明镜头内容的语义信息尚未很好地利用, 况且镜头主要还是一个物理单元, 还不足以描述有语义意义的事件或活动。为此, 需要对视频进行更高层的抽象, 将内容上有关系的镜头结合起来, 以描述视频节目中有语义意义的事件或活动。这个工作称为镜头聚类。

(1) 基于分割的方法。从一般的角度来看, 镜头聚类也可看作一个视频分割问题、与镜头的时域分割不同, 这里不是也不能完全按时间轴进行切割, 因为镜头聚类中镜头并不一定在播放时间上连续。可以凭借助突变或渐变检测将视频分成一系列镜头, 再根据内容的相关性结合镜头形成聚类。

(2) 基于模式分类的方法。镜头聚类常基于关键帧进行, 主要问题是对关键帧进行分类, 这可参照利用特征对模式进行分类的方法。需要提取关键帧的特征, 并把关键帧用对应的特征空间点表示, 通过将特征空间的点聚集成团, 然后再将它们映射回原空间以得到对关键帧分类的结果。这类方法的两个要点:特征选择和提取;特征空间聚类。

(3) 基于特定视频类型的方法。很多情况下, 如视频节目中的新闻报道、体育比赛和广告节目等, 可以针对某类特定视频节目的特点, 利用该类视频节目专门的领域知识或者结构知识来建立模型以帮助进行镜头聚类。构建更高层次的与内容相关的镜头聚类, 既要考虑各种视频单元, 如场景、情节和故事单元等, 也要考虑不同的聚类方法, 还要考虑具体应用的要求。视频结构分析的过程, 就是将语义相关的镜头组合, 聚类的过程。

三、前景趋势

视频数据处理是实现基于内容的视频检索的一项关键技术, 它直接影响到视频特征匹配和检索的精度, 其研究还处于起步阶段, 各种理论和相关技术都不尽完善, 需要继续做大量的研究探讨。

参考文献

基于内容的视频检索技术 第10篇

1 基于内容的视频检索技术

基于内容的视频检索,就是根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。它提供一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。目前,基于内容的视频检索研究,除了识别和描述图像的颜色、纹理、形状和空间关系外,主要的研究集中在视频分割、特征提取和描述(包括视觉特征、颜色、纹理和形状及运动信息和对象信息等)、关键帧提取和结构分析等方面。

基于内容的视频检索系统如图1所示。

首先要进行视频结构分析,将视频序列分割为镜头,并在镜头内选择关键帧,这是实现一个高效的CBVR系统的基础和关键。然后提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库。最后根据用户提交的查询按照一定特征进行视频检索,将检索结果按相似性程度交给用户,当用户对查询结果不满意时可以优化查询结果,自动根据用户的意见灵活地优化检索结果。

2 视频搜索的构造

2.1 从视频流中提取镜头(即对视频流的切变检测)

镜头是视频数据的基本单元,视频处理首先就需要把视频自动地分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界的检测。它是实现基于内容的视频检索的第一步,其核心处理是镜头切变检测。视频结构的构造中,镜头切变检测是重点,而且其算法和思想可用于其它步骤,故应重点研究。

2.2 从镜头中选择关键帧

文本索引使用关键词作为标识句子、段落、文档的指针,在视频流信息中,关键帧起着与关键词类似的作用,用关键帧来标识场景、故事等高层语义单元。比帧高级一些的视频基本单元是镜头,通常视频流中的镜头由在时间上连续的视频帧组成,它代表一个场景中在时间上和空间上连续的动作,对应着摄像机的一次纪录起停操作。镜头之间可存在多种类型的过渡方式,最常见的是切变(Cut),表现为在相邻2帧间发生突变性的镜头转换。此外,还存在一些较复杂的过渡方式,如淡入、淡出等。基于镜头的检索:一段视频分割成镜头后,将每个镜头的首帧(或首帧与末帧)作为镜头的关键帧。该方法实现起来比较简单,无论镜头的内容如何,关键帧的数量都是一定的(1帧或2帧),但效果不是很稳定,因为每个镜头的首帧或末帧不一定总是能够反映镜头的主要内容;基于运动分析的检索:Wolf通过光流分析来计算镜头中的运动量,在运动量取局部最小值处来选取关键帧,它反映了视频数据中的静止,视频中通过摄像机在一个新的位置上停留或通过人物的某一动作的短暂停留来强调其本身的重要性。Wolf的这种基于运动分析的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出,再计算对象所在位置的光流,可以取得更好的效果。合成法将镜头中的所有运动转换拼接成一个合成帧作为关键帧。从视频流中构造场景或组:计算镜头间的相似性(实际是关键帧间的比较),选择合适的聚类算法进行分析。按时间顺序和关键帧的相似程度可分为场景,也可以只按关键帧的相似程度进行分组。

3 特征提取

3.1 颜色特征

颜色是物体表面的一种视觉特性,每种物体都有其特有的颜色特征。基于颜色特征主要有下面两种方法:模板匹配法(对应像素法)和直方图法。模板匹配法是将两帧对应像素差的绝对值之和作为帧间差,当帧间差大于某个阈值t时,则认为有镜头的切换。模板匹配法的缺点是,由于与像素的位置密切相关,因此对噪声和物体运动十分敏感,容易造成误识别。张宏江等人提出将各帧划分为8×8像素的子块,并对每个块取平均,再用这个平均值对前后帧的对应子块进行比较,这种方法对小的噪声和运动不敏感。直方图法是使用得最多的计算帧间差的方法,它丢失了颜色的位置信息,因而抗噪声能力要比模板匹配强。颜色直方图法的缺点是,两幅图像可能内容完全不同但直方图相似,也容易造成误识别。一种改进的方法是将图像划分成若干子块分别对各子块进行匹配。A.Nagasaka和Y.Tanaka提出了一种将视频帧划分为4×4相同大小的子块并比较相应子块的方法。其它改进方法还有X2直方图匹配法和Swanberg等人采用的模板匹配法和直方图匹配法相结合的方法。

3.2 纹理特征

20世纪70年代初Haralick等人提出了纹理特征的共生矩阵表示法,即利用纹理在灰度级的空间相关性,先根据图像像素间的方向和距离构造一个共生矩阵,再从中提出有意义的统计数据作为纹理的特征表示。该方法的缺点是这些统计特征没有和人在视觉上对纹理特征的感知之间建立对应。于是不少人提出了其它的纹理特征度量方法,随后又有不少人提出了纹理的特征集。目前还没有一个统一的标准来精确地表示纹理的特征,因为人对纹理的视觉特征的认识非常主观。

3.3 运动特征

运动特征是视频镜头的重要特征,它反映了视频的时域变化,也是用视频例子进行检索的重要内容。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等,但这些方法计算量大。于是,Tonomura等人提出了X线断层分析的方法,将整个视频序列沿时间轴进行切片,从切片图像中分析运动情况。张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量,在新闻视频中取得了较好的效果。其它的特征主要有物体间的方位关系,特征点(即满足一定要求的像点,如曲线交点),基于目标的特征等,目前研究得较少。

4 视频检索和浏览

在对视频流中各镜头提取关键帧并进行特征提取后,还要建立基于视频特征的索引。通过索引,就可利用基于关键帧特征,或是基于镜头动态特征,或是将二者相结合进行对视频进行检索和浏览了。于内容的检索是一个近似匹配,逐步求精的循环过程,主要包括初始查询说明、相似性匹配、返回结果、特征调整、人机交互,检索反馈等步骤,直至获得用户满意的查询结果。对于视频来说,浏览与有明确目的的检索同样重要。浏览需要视频具有在语义层次上的表示,有学者提出了场景转换图(STG)的概念,以一个有向图的节点表示场景,边表示时间上的转换。通过对STG的化简,可以去掉不重要的镜头,得到视频的紧凑的表示。由于单纯从图像从获得语义信息非常困难,也有学者提出了综合采用视频中的图像、语音以及文字信息的方法。在检索的实现中除利用图像的视觉特征进行检索外,还应根据用户的反馈信息不断学习改变阈值重新检索,实现人机交互,直到达到用户的检索要求。如何定义是否两个视频相似,仍然是尚未解决的问题,限制了检索系统的应用范围。而且由于视频内容的复杂性,不同用户在检索过程中,即使对同一部视频,其注重的角度也有可能不同,因此接受用户的反馈意见,当用户对查询结果不满意时可以优化查询结果,突出用户的需要。在综合了人类视觉心理特征的基础上,介绍了一种视频相似衡量的模型,从镜头、视频等多个层次,多种视觉判断角度,对视频间相似度进行衡量。并在此基础上提出了从多个粒度———镜头层次和视频层次进行检索反馈的方法。整个过程是自动进行的,根据用户的意见灵活地优化检索结果。

5 未来研究

视频信息处理和检索技术具有非常广阔的应用前景,目前世界上很多著名的研究机构在研究视频信息检索技术及其应用,并开发了一些原型系统,如:VideoQ系统、QBIC系统Photobook系统、CORE系统、VisualSEEK系统等。另外还有许多类似的系统,例如加利福尼亚大学Santa Barbara分校的Netra、伊利诺依大学的MARS、CMU的Infomedia等等。基于内容的视频检索技术是一种综合集成技术,其一些关键技术如镜头边界检测、关键帧提取、特征提取等的研究虽然取得了一定的进展,但由于各种理论和相关技术都不尽完善,所以还有许多问题需要进一步深入研究。另外检索效果的评价尚没有标准:由于视频内容的丰富性和复杂性,以及人对视频内容评判的主观性,使得其检索性能的优劣很难有一个统一的标准。这也是CBVR技术研究的一个方向。目前主要使用多媒体信息检索中的两个指标:查全率(recall)和准确率(precision),定义为recall=correct/(correct+missed);precision=correct(correct+falsePosition)其中:correct为正确检测到的数目,missed为漏检的个数,falsePosition为误检的个数。

摘要:该文系统地介绍了实现基于内容的视频检索的一般过程,从分析视频检索的系统结构出发,全面地探讨了系统所涉及的视频结构的构造、视频检索的工作原理、关键帧提取技术、从视频流中构造场景或组的技术、特征提取技术以及视频检索、浏览和检索反馈技术,重点分析了一些关键技术中的算法以及未来的研究重点。

关键词:视频检索,镜头切变检测,关键帧提取,特征提取,检索反馈

参考文献

[1]张洪德,刘雨,唐波.基于内容的视频检索技术研究[J].电视技术,2001(6):30-39.

[2]陆燕,陈福生.基于内容的视频检索技术[J].计算机应用研究,2003(11):1-4.

基于多媒体融合的图像检索的技术 第11篇

多媒体融合;图像检索;语言识别;模式识别

【作者简介】陆伟艳(1980—)壮族,女,桂林电子科技大学硕士,讲师;研究方向:信息与信号处理与移动通信系统网络

1.引言

随着多媒体技术和网组的迅速发展,以及3G、4G移动通信系统的发展,移动通信从语音业务过渡到移动宽带业务的发展出现了移动多媒体广播业务。多媒体信息的数据从以前的紧缺飞速的增,并随着人们日益需求的不断增加而迅速增加。图像信息的应用日益广泛,人们对图像数据的查询需要日益增长,对规模越来越大的图像数据库进行有效的管理就成为迫切需要解决的问题了。

2.基于多媒体融合的图像检索的概念

A.基于多媒体融合的图像检索

多媒体信息是指以文字、图像、影像、声音和动画等为表现形式的媒体信息。所谓的基于多媒体融合的图像检索是对图像对象的内容及上下文语义环境精心检索,如图像的颜色、纹理、形状、符号,描述图像的语音等语义特征来实现与图像内容信息相关的检索。

B.基于内容的图像检索技术的概念

基于内容的图像检索是依靠图像特征进行标引和检索。所谓图像特征的画面内容特征(图像颜色和纹理等),以及图像的主题对象特征。基于内容的图像检索主要技术着重于图像的画面内容特征和主题对象特征来进行检索。它直接对图像内容进行分析,抽取特征和语义,利用这些内容特征建立索引进行检索,还融合了模式识别、计算机视觉及图像理解等技术。

图1 基于内容的图像检索技术的概念模型

a.基于颜色特征的检索

颜色特征是图像检索中所使用的最直观的视觉特征。在基于颜色检索中除了采用颜色直方图外,还引用了空域信息,它确保检索的精度。在引用空域信息的时候要兼顾不变性的问题。同样,为了更好的保存图像色彩空间的信息,PASS提出了图像的色彩聚合向量(CCV)來做图像的索引。

b.基于形状特征的检索

形状特征也称为轮廓特征,是指整个图像或图像中子对象的边缘特征。采用形状特征进行检索时,用户可以通过勾勒图像的形状或轮廓,从图像库中检索出形状相似的图像。基于形状的检索更多的用于当用户粗略的画出一个轮廓进行检索的情况。用户可以选择某一形状或勾画一副草图,利用形状特征或匹配主要边界进行检索。基于形状特征的检索方法主要有两种:

针对轮廓线进行的形状特征检索,也就是分割图像进行边缘提取后,得到目标的轮廓线。

直接针对图形寻找适当的向量特征进行检索。

c.基于纹理特征的检索

纹理检索与纹理分类技术有着密不可分的关系,包括有两种方法:一种是统计方法,人们提出以图像像素的颜色的分布统计信息和轮廓点的位置分布统计信息作为图像的特征量,并使用该特征量实现图像的检索。另一种是结构方法,通过对纹理颜色的定性描述,把检索空间缩小到某个颜色范围,然后再以示例查询的方法为基础,调整粗糙度、方向性和对比度三个特征值,逐步逼近要检索的目标。

d.基于对象特征的检索

基于对象特征的检索就是对图像中所包含的静态子对象进行查询,检索条件可以利用综合颜色、纹理、形状特征、逻辑特征及客观属性等,例如综合利用颜色和纹理特征。基于对象特征的检索首先要对图像进行预处理,将原始像素信息分割成一些颜色和纹理在空间上连贯分布的区域,计算出每个区域的颜色、纹理和空间特征。这种方法用于检索图像对象或子对象,所以出来对图像要做预处理外,还需要进行图像分割,在难度和复杂度上,比基于颜色和纹理的检索技术更进一步。对于分割后的每个区域,用一个多维向量来表示其颜色、纹理、形状及空间关系等特征,这样对于一个给定的区域,所得到的多维向量是确定的。检索的时候,根据用户所提供的信息或草图,利用高效的检索算法进行匹配,再根据相似性测度函数进行过滤,将相似度高的图像提供给用户。

3.基于语音识别的图像检索方法与实践

基于多媒体融合的图像检索技术主要分为两大模块:语音识别模块和图像检索模块。在文献中采用的是手动图像标注的方式进行语音识别对数字图像进行检索,这种方法有一定的创造性,但是运用起来工作量繁重尤其是对海量的图像数据。针对此问题本文介绍一种图像语义自动标注的图像检索系统,如图2所示为本文将介绍的基于多媒体融合的图像检索系统流程图。

基于语音识别的图像检索系统的用户查询与基于文本的图像检索、基于内容的图像检索系统不同的是用户是说出查询关键词,算法通过分析将查询要求转化为计算机内部描述,从而获得查询图的特征,然后借助特征库中的特征匹配从图像数据库提取出用户需要图像。

在语音识别模块中包括语音库的建立、端点检测、特征提取、特征匹配。在语音识别模块中,首先要建立一个语音库作为参考模板,以便与用户读入查询词形成的测试模板进行匹配,识别出用户要检索的关键词。在语音录制存储后,对语音信号分帧,然后对分帧后的语音信号进行语音增强,然后对增强后的语音信号进行端点检测。特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数,如平均能量、过零率、共振峰、倒谱、线性预测系数等,特征提取是模式识别的关键。最后是特征匹配。

基于多媒体融合的图像检索是个新兴的研究领域,在国内外仍处于研究探索的阶段。随着Internet的技术发展,移动通信从模拟语音时代发展到数字系统,语音与少量数据的传输发展到今天已是宽带业务的需要,更加需要语音识别检索取代的手写输入的检索方式的系统。本文在最后简单的介绍了基于语音识别的图像检索系统与实践,但这只能用于简单的检索测试,距离实际应用还需要不断的改进。

[1]朱学芳.多媒体信息处理与检索技术[M]北京:电子工业出版社.2002

[2]章毓晋.基于内容的视觉信息检索[M]北京:科学出版社.2003.58

基于内容的图像检索技术综述 第12篇

随着计算机的普及和多媒体技术的飞速发展,图像信息量也成指数倍增长,但是这些图像资源分布在世界的各处,所以如何能有效的查找、利用这些资源,一时间成为了广大学者研究的热点。

早期的图像检索技术是基于文本的图像检索(Text-Based Image Retrieval,简称TBIR),是通过文字信息来描述图像属性,存在着无法解决的的难题:图像的标注必须依赖于人工,费时费力而且不准确、不完整;图像信息中诸如颜色、纹理、兴趣点等的视觉特征文字进行准确的描述。因此,基于文本的传统图像搜索已经不能满足用户们的要求。

基于内容的图像检索(Content-Based Image Retrieval,简称CBIR)是指直接采用图像内容进行图像信息查询的检索,即在图像数据库中检索与用户所提交样本图像在内容上一致或相似的图像集合的过程,通过对图像底层特征的比较来实现检索。主要研究技术包括特征提取、相似性度量、图像匹配、用户反馈。

2 CBIR主要技术

基于内容的图像检索中,采用的图像特征主要有颜色、形状、纹理以及兴趣点。

2.1 基于颜色特征的图像检索

颜色特征是在图像检索中运用最广泛的视觉特征,这主要是因为颜色特征对图像本身的大小、视角、方向、分辨率以及噪声依赖性很小,从而具有很高的鲁棒性。

颜色直方图(Color Histogram)描述的是不同色彩在整幅图像中所占的比例,单纯的颜色直方图不关心每种色彩所处的空间位置,丢掉了图像的空间特征,因此人们利用全局颜色直方图法、累加颜色直方图和主色调直方图等进行改进。

颜色矩(Color Moment)是一种简单而有效的颜色特征,由Stricker和Orengo提出[3]。图像的颜色分布信息主要集中存在于低阶矩中,因此采用颜色的一阶矩、二阶矩和三阶矩就足够表达图像的颜色分布。

颜色相关图(Color Correlogram)是图像颜色分布的另一种表达方式,它不但刻画了某一种颜色的像素数量占整个图像的比例,同时还反映出了不同颜色对之间的空间相关性。这种方法容易计算,特征范围小,效果好。

2.2 基于纹理的图像检索

纹理特征是一种不依赖于颜色或者亮度的反映图像中同质现象的视觉特征。它是物体表面共有的内在特性,其本质是刻画像素的邻域灰度空间分布规律。

共生矩阵用两个位置的象素的联合概率密度来定义,它不仅反映亮度的分布特性,也反映具有同样亮度或接近亮度的象素之间的位置分布特性,是有关图象亮度变化的二阶统计特征。

基于小波变换的图像纹理分析,主要采用塔式小波变换(PWT)和树形小波变换(TWT)。可以采用滑动窗口与小波变换联合使用的快速纹理提取方法。Gabor函数最早由Gabor博士于1946年提出,通过高斯函数加上频移后产生,Gabor滤波器是用Gabor函数作单位冲激响应的带通滤波器,有着良好的滤波性能。

2.3 基于形状特征的图像检索

物体和区域的形状是图像表达和图像检索中的另一重要的特征。在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域,因此,形状特征的描述包括轮廓边界的描述与边界所包围区域的描述。这两种描述的典型代表分别是傅里叶描述子和形状不变矩。

傅里叶描述子的优点是降维,大大减少了计算量。傅里叶变换的高频分量对应细节部分,低频分量对应总体形状部分,所以可以只用一些对应低频分量的傅里叶系数来近似描述边界形状。

形状不变矩的基本思想是使用对变换不敏感的基于区域的几个矩作为形状特征。不变矩理论最早由Hu提出,他利用中心矩构造了7个不变量。这7个不变矩由二阶和三阶中心矩的线性组合而成[4]。

2.4 基于兴趣点的图像检索

兴趣点是图像中灰度在x和y方向都有很大变化的一类特殊点,它有着易于匹配、信息含量高、数据量小等一系列优点。

Harris算子是C.Harris和M.Stephen在1988年提出的一种基于静止图像的点特征提取算子。其思想是在图像中设计一个局部检测窗口,当该窗口沿各个方向作微小移动时,考察窗口的平均能量变化,当该能量变化值超过设定的阈值时,就将该窗口的中心像素点提取为角点。

Sift是David Lowe于1999年提出的一种局部特征描述子。Sift特征独特性好,信息量丰富,并且对图像的旋转、伸缩具有很好的不变性。

3 图像的相似性度量

图像的相似性度量是图像检索的一个重要环节,它具有依赖图像特征的特点,所以不同的特征应该采取不同的度量方法。

常用的距离度量公式有:Minkkowsky距离、Euclidean距离、Manhattran距离、加权Euclidean距离、Mahalanobis距离、Chebyshev距离等。如果采用了综合特征进行检索时,需要对各特征向量进行归一化,以使得综合特征的各特征向量在相似距离计算中地位相同。

4 结束语

基于对CBIR系统的深入研究,以及对国内外相应先进技术的学习,不难看出现在的CBIR技术仍存在着几个问题:基于颜色特征的图像检索,丢掉了图像颜色的空间特征;基于纹理特征的图像检索,因为纹理不能直观表达,所以只能依赖于的纹理图像。基于形状的图像检索在提取形状特征时,无法准确的自动提取边界(edge);基于兴趣点的图像检索还处于一个刚刚起步的阶段,技术还不成熟;现有CBIR技术很少考虑用户反馈。

综上所述,CBIR技术还有很大的提升空间。对于现在单一特征检索存在的问题,我们可以采取多特征联合检索。可以采用纹理特征和兴趣点特征联合检索;也可以采用颜色特征和兴趣点特征联合检索[5];还可以采用颜色和形状特征的联合检索等等。这将是以后一个阶段研究发展的方向。再次,如何实现用户反馈,也将是今后发展的一个方向。

参考文献

[1]Miguel Arevalillo-Herraez,Juan Domingo,Francesc J.Ferri.Combining similarity measures in content-base image retrieval[J].Pattern Recognition Letters,Volume29,Issue16,1december2008.

[2]Mahmoud Mejdoub,Leonardo Fonteles,Chokri BenAmar,Marc Antonini.Embedded lattices tree:An efficient indexing scheme for con-tent based retrieval on image databases[J].Joumal of Visual Communication and Image Representation,Volume20,Issue2,February2009.

[3]李弼程,彭天强,彭波.智能图像处理技术[M].电子工业出版社,2004.

[4]HuMK.Visual.Pattern Recognition by Moment Invariants[J].IRETrans.Information theury,1962,IT(8).

[5]Minakshi,Malay K.Kundu,Pradipta Maji.Content-based image retrieval using visually significant point features[J].Fuzzy Sets and Sys-tems,9March2009.

上一篇:数字视频压缩技术下一篇:资金风险及其控制论文