关键词检索论文

2024-05-23

关键词检索论文(精选8篇)

关键词检索论文 第1篇

仪器测试技术,是一个古老又新兴的行业。古老是指电路出现之时就随之出现测试技术,而新兴是指不断有新的技术推陈出新。仪器测试技术涉及面非常广泛,涉及的技术领域非常繁杂,繁杂是指每个案件涉及的技术领域专业技术知识是不同的。

这样的技术领域对审查员本身专业知识提出了很高的要求,仪器测试领域申请量巨大,没有太细的分类号,往往每个分类号下面都有上千篇专利文献,而且由于仪器测试领域知识面复杂,也没办法给出太细的分类号,有时给出的分类号也不能确切的概括申请的发明点。很多时候,没有准确的分类号或者单凭分类号无法找到合适文献,此时往往需要关键词的辅助,在无法找出合适分类号时,关键词的选取尤为重要。作为从事仪器测试领域的专利审查工作多年的审查员,对该领域审查中关键词的选取有几点心得和体会,在此提出以期对该领域案件的检索有所帮助。

1检索案例及选取关键词策略

1.1补充专业知识,调整关键词

对于仪器测试领域案件审查,常常遇见与所学专业不相关的申请,拿到案件初始,就有无从下手的感觉,因为所有的审查都建立在本领域技术人员的基础上,如果对案件都看不懂,那审查案件就很困难。在此种情况下,就需要补充专业理论知识,理解技术方案,不断调整关键词。

案例1:

权利要求1:交换偏置薄膜难易磁化方向的测试方法,其特征是在一外加直流磁场H中放置被测样品薄膜,使被测样品薄膜平面与外磁场方向平行,并且使被测样品薄膜绕与外磁场平面相垂直的轴转动,在进行测试时,任意施加一给定外磁场,保持其大小不变,记录样品所处的初始位置和此时的磁化强度大小,然后每将被测样品薄膜转动一个角度,测量出在该角度θ0状态下被测薄膜自发磁化强度MS在外磁场方向的相应的投影值M,由此得到被测样品薄膜在不同转角θ0与对应的M值的函数,根据测量所得M~θ0曲线确定交换偏置薄膜易磁化轴或难磁化轴。

检索过程及其分析:

该案检索首先采用分类号加关键词进行检索。该案的分类号是G01R33/12(测量物品的磁性或者固体或流体样品的磁性),凡是涉及物品磁性测量的案件基本上都在该分类号下面。物品可以是多种多样的,例如:金属、土囊、生物;物品磁性测量可以采用各种手段,例如:应力、脉冲、角度。涉及面广、涉及的领域也各不相同。在CPRSABS以及VEN库中分别都采用分类号加上关键词“薄膜、磁化轴、角度”组合进行检索,没有找到合适对比文件。考虑到没有其它更合适的分类号,因而关键词的取舍就很关键。在检索中还采用“交换偏置”一词作为关键词,发现采用“交换偏置”一词进行检索,文献量很少,而且和该案的技术方案相关性较小。

通过查阅理论知识,了解到该案中的交换偏置效应是指当两个金属离子同类时,由于金属原子所处的周围环境相同,所以具有相同的外层电子结构,难以出现离子间的电荷转移,因此,双交换作用可能性小。但是对不同类的金属离子,因为不同离子间的外层电子结构具有较大差异,因此,在金属离子间可能存在电荷转移,即双交换。在磁性物质中,自发磁化主要来源于自旋间的交换作用,这种交换作用本质上是各向同性的,如果没有附加的相互作用存在,在晶体中,自发磁化强度可以指向任意方向而不影响体系的内能。实际上在磁性材料中,沿不同晶体学方向磁化时,磁化难易不同,自发磁化强度总是处于一个或几个特定的方向,该方向称为易轴。当施加外场时,磁化强度才能从易轴方向转出,此现象称为磁晶各向异性。

在CNKI库中检索,检索到相关文献《单晶薄膜磁各向异性的输运测量》,复旦大学硕士学位论文,曹文娜2011年。文献里指出测量磁各向异性场的方法有采用旋转磁化方法。从而确定关键词“旋转磁化”,在CNKI中继续检索,采用以下检索式:

(铁or fe)and(旋转磁场or旋转磁化)and测量

检索到该案的对比文件《:有机分子DDQ-TM_2磁性的第一性原理研究及旋转磁化法测量六角晶系面内各向异性场的理论研究》,兰州大学硕士学位论文,王爱民,2010年。该对比文件公开了基于拟合旋转磁化曲线来推导面内磁晶各向异性场的旋转磁化方法。与传统方法相比,对具有面内单轴磁各向异性的薄膜,该方法可以在未知难轴与易轴的条件下,用振动样品磁强计测量样品在固定磁场大小时的旋转磁化曲线,通过对实验曲线的拟合,得到各向异性场,并可进一步确定出磁各向异性常数以及难轴、易轴的方向;在一个面内单轴薄膜系统内,难轴(HA)和易轴(EA)分布在(x-y)平面内。当有一个与易轴成θ角的直流磁场H存在时,按照Stoner一Wokfarth模型,总的有效能密度可以写成各向异性能和塞曼能和的形式;而θ是易轴与饱和磁矩(Ms)间的角度。当外场开始沿着x-y平面转动时,相应的θ0也开始转动。可以得到平衡角度θ关于θ0的依赖关系。而同时,转动磁矩为饱和磁矩在外场方向上的投影,所以理论上的转矩曲线(RMC)可以通过cos(θ0-θ)关于θ0的函数关系得到,由此得到被测样品薄膜在不同转角θ0与对应的M值的函数,即M=MScos(θ0-θ)。材料需要在磁场中转动一个闭合周期,根据完整周期中的RMC曲线,可以清晰的得到,曲线最大值处为易轴方向,而最小处为难轴的方向。

对于该案,物品磁性测量超出审查员专业知识领域,该审查员对此所知甚少。专业研究对于关键词的选取有着指导意义,深入了解专业理论,注重专业知识的运用,针对性的补充相关技术知识,深入理解该申请的发明点,提取合理有效的检索要素,从而找到合适对比文件。

1.2在检索中不断积累相关词汇

来自自然语言的关键词存在大量的同义和近义现象,由词语的多义性,对于同一主题概念可以采用不同词进行表述。对于专利文献,虽然专利局要求专利申请尽可能采用通用的科技术语,但是由于不同国家、不同阶层的人员都进行发明创造,不同的专利文献表述相同概念的用语自然有很多。

案例二:

权利要求1:一种逻辑内建自测试系统,包括:测试向量生成系统及与测试向量生成系统相连的测试机,所述测试机用以与被测电路连接在一起,其特征在于:所述测试向量生成系统包括测试软件服务器及可以登陆装有该测试软件服务器的操作界面,通过操作界面可以启动测试软件进而生成逻辑内建自测试向量;所述测试软件服务器与测试机通过网络相连,并且生成的逻辑内建自测试向量通过该网络被移植到测试机上。

检索过程及分析:

该案要解决的问题是集成电路板生产测试过程中需要测试人员收集大量测试的为测试做准备的原数据,面对多种类又相对分散的测试所需的原数据,测试人员需要花费较长时间来收集和整理。该案提供测试效率高的逻辑内建自测试系统,测试人员可以通过操作界面挑选对应的ATPG测试软件,系统将自动产生测试所需要的所有脚本,启动ATPG测试软件,自动生成逻辑内建自测试向量并输出逻辑内建自测试向量文件和报告,最后自动关闭测试软件。

从权利要求中提取的关键词是“逻辑内建”“测试向量”“软件”。在检索过程中发现,在集成电路行业,逻辑内建自测试方法是一种特定测试方法,就是将测试仪的部分功能转移到集成电路的内部,用嵌入到集成电路中的测试电路来提高输入测试向量和分析响应功能,最后输出测试结构。在该行业“,逻辑内建”还可采用“逻辑内置”及“逻辑内设”表述。而对于关键词“软件”,它是各领域通用词语,采用关键词“软件”带来大量噪音。通过对相关文献分析可知,该案实际上是涉及集成电路测试中对数据的分析处理,在相关文献中采用的是测试图形、测试程序等词表述测试数据。因而检索过程中,将关键词“逻辑内建”扩展为“逻辑内建”“逻辑内置”及“逻辑内设”;而不采用关键词“软件”,改而采用关键词“测试图形”“测试程序”。通过调整关键词,检索到对比文件1:CN101038325A,其公开了一种测试芯片的装置,并具体公开了服务器用于根据测试任务编译相应的测试程序,并通过仿真器将所述测试程序传输给控制电路板;仿真器与控制电路板连接;服务器根据测试任务编译测试程序,测试程序功能是将内存中存储的测试图形内的测试向量读出来,按照一定时序关系将其施加到芯片测试用引脚上,即服务器通过仿真器将测试程序中测试向量传输给测试电路。

在检索过程中,检索者应该借助于对检索结果的浏览不断补充和调整检索词,目前有些检索系统或者数据库中提供有同义词库等工具,例如S系统同义词库,在确定检索关键词时值得借鉴。但是对于同义词的扩展,实现关键词意义上的准确及完整,主要需要检索者自己在检索过程中不断积累和探索,相关技术知识的补充,从而在检索过程中实现准确高效的检索。

1.3注意非正规用语的积累

有些公司有意采用非正规技术用语,意图规避检索,例如仪器测量领域普遍采用“变压器”用语;而某些申请人则采用“变换器”“交换器”;有些是地域文化差异造成某些技术用语不同,在仪器测试领域,特别注意台湾和日本公司的申请,由于政治因素,台湾和大陆长久隔阂,已经造成文化上的差异,这种文化差异体现在科学技术交流上,实际上已经造成技术交流上的不方便。

案例三:

权利要求1:一种金手指电测治具,其特征是,包含一对合的底板和一上盖板,所述底板的一端留有可插入待检测的金手指的空隙,在所述空隙内、底板朝向上盖板的一面设置金手指区,所述金手指区包含一排可与插入的待检测的金手指电连通的端子;所述上盖板上开有一操作口,操作口中设有一可绕转轴转动的操作把手,所述操作把手的一端位于可与金手指区内端子接触的操作口中金手指区的上方。

检索过程及分析:

该案申请人是昆山迈致治具科技有限公司,是台湾在大陆设立的公司。台湾公司由于经常采用日本公司技术,有些术语是翻译日本公司采用的术语,该案中的“治具”就是沿用日文中对该技术的用语。而在中国大陆则习惯用“工具”或是“夹具”等词。而该案中的“金手指”采用的是非正规用语,在行业中通常采用“电极”。在检索中应注重对这些关键词的扩展,不能局限于申请人给出的用词。采用分类号及扩展的关键词“治具、工具、夹具”“,金手指、电极”,检索到对比文件1:CN201035042Y,公开了一种柔性线路板电性能测试治具,对比文件2:CN201156865Y,公开了一种电路板检测用夹具,用该两篇对比文件评价了权利要求1的创造性。

拿到一个案子,看到某些感觉生僻的词语,不要急于检索,先分析是否有其它更专业的技术用语。在开始检索,同时采用非正规用语及正规用语进行检索,漏检可能性降低,同时也节省检索时间。

2结语

该文通过对仪器测量领域案件的分析,总结了这类的案件在检索过程中可以采用的检索策略;重点在于对关键词的选取及扩展。提取关键词,注重专业理论知识的积累;相关词汇的积累以及非正规词语的积累;这些对于该类案件的审查都有着积极意义。希望该文的分析总结对于仪器测量领域案件的检索能起到积极作用。

参考文献

[1]刘昕鑫.网络通信领域检索初探[J].审查业务通讯,2013,19(10):62-70.

[2]朱小平.关键词检索技术与应用技巧[J].咸宁学院学报,2006,26(4):206-207.

关键词检索论文 第2篇

【关键词】 电力信息 大数据 高速存储 检索

随着网络信息技术的不断发展,电力企业涉及的数据信息更加广泛、数据形式更加多元化。这就需要电力企业根据数据信息的发展规模,加快智能电网的建设进程,提高数据检索关键技术和数据存储技术。

一、大数据相关概述

所谓大数据是指在一个数的几何体对各项数据以及信息进行储存、查询、计算、整合等。大数据具有4V特征:其一,容量大(Volume)。数据规模从TB级别跃升到EB级别,新数据以每天2.5EB的量级高速增长。其二,类型众多(Variety)。大数据的结构形式具有多样化特点,不仅能涵盖了文本形式,还涵盖了图片、音频、视频、网络日记和地理位置等多种半结构化形式、数据结构形式和非结构化形式。就结构化数据而言,在数据结构体系中占据的比例为15%;就非结构化数据而言,非结构化数据在数据结构体系中占据85%。其三,速度更快(Velocity)。由于大数据具有规模大、容量信息较大等特点,这就要求数据处理的效率要高。一旦数据信息没有得到及时有效的处理,就会失去数据原本的价值,还会导致大量有效数据信息淹没在海量数据规模体系中。其四,价值密度低(Value)。由于大数据规模巨大,信息容量大,因此数据价值容易被隐藏。因此需要通过综合的分析方法在海量数据中体验具有价值的数据信息。

二、基于电力信息大数据高速存储方案和技术

第一,“先进先出”缓存形式。这类缓存形式应用的核心设备是FIFO存储器。资料由储存器的开端输入存储器的末端,资料输出的时间与资料送入储存器的时间成正比。这套缓存方法主要包含两套数据线,无论是数据资料还是其他信息都可以在存储器中进行顺序运用。因该类型数据缓存方法具有信息传递效率高、节约时间等优势。此种技术的缺点在于过于死板。一旦出现容量较大的数据信息或者资料,就容易导致数据读取时间过慢。第二,“双口PAM”缓存形式。该技术拥有两套相互独立的地址、数据总线。因此在读取容量较大的数据信息时,可以在控制器的两端同时读取数据、采集信息等。该技术具有信息传递速度快、可以同时读取和采集信息等优势。但是双口PAM控制器价格较贵。第三,“高速SRAM”切换缓存形式。该技术只有一套数据总线,可以以三态缓冲门作为数据传输的控制器,并实现ADC转换器与缓冲门之间的数据切换和数据自由传递。完成数据存储、数据传递、数据读取之后,就可以在ADC控制器中展开数据读写程序。该技术具有随着随地操作与读取数据的优势,其缺点在于数据集成化水平相对较低。且占用内存的面积大。

三、基于电力信息大数据高速检索技术

1、对内容进行检索。搜索引擎需要对用户输送的关键信息进行检验、细致分析与归类。一般来说,对搜索内容进行检测的形式主要包含以下三种:?字符串检索与分析。借助字符串可以正向分析、逆向分析、切分分析用户检索的关键词类别。?先理解、再匹配分析。搜索引擎模拟人们的思考模式,人们总是对检索信息或者词汇进行归类之后再进行信息的还原与匹配。基本原理是一致的。即在分词过程中把语言歧义部分进行分类整理,主要以语法、语义体系和总控制体系三部分构成。?先统计,再匹配分析。根据调查得知,邻近字在搜索引擎中出现的频率较高,对邻近词进行统计后再分词、匹配。需要注意的是,在检索期间,类似“的”、“吗”等词语在分词时会被去除。

2、并行采样技术。对于高速数据采集体系来讲,是系统最核心的指标。要想实现高采样频率这一目的,可以借助单片高度数据转化其芯片。该芯片具有分辨率低、价格高等特点。因此可以通过交叉时间采样方法提高数据收集效率,达到采集效果。ADC是并行采用技术的一种主要转换器,其主要形式有闪电式的ADC转换器,以及逐次逼近形式的转换器,这两类转换器的优缺点见表1。

3、搜索请求进行检索与匹配。对用户搜索请求进行细致分析与匹配是在搜索引擎接受到检索内容之后展开的主要任务。分析完用户输入的检索内容之后,对名称进行匹配,并在系统中显示匹配的内容。这就需要遵照匹配程度对其进行排序。如此一来,用户就可以减少搜索等待的时间,从而达到提高信息检索效率和工作质量的目的。结束语:随着市场竞争的日趋激烈,电力企业要想在残酷的市场竞争中站稳脚跟,就需要改进传统管理方法和管理技术,不断借鉴发达国家的智能化管理技术和管理方法,提高大数据的存储和检索效率,从而更好地为社会服务。

参 考 文 献

[1]马义松,武志刚.基于Neo4j的电力大数据建模及分析[J].电工电能新技术,2016,02:24-30.

[2]周文琼.大数据环境下的电力客户服务数据分析系统[J].计算机系统应用,2015,04:51-57.

基于网络的关键词检索技巧 第3篇

关键词:关键词检索,因特网,技巧

2 1世纪人类社会已进入了信息化时代, 而因特网上的信息也像原子裂变一样迅速膨胀, 面对这些浩瀚无边的信息人们已经显得无所适从了。关键词检索是网络信息检索最流行的方法, 它可以从无数的网络资源中迅速地检索出所需信息, 从而提高工作效率, 节约宝贵的时间。因此, 关键词检索是互联网信息检索方法的重点内容。但是由于用户检索经验不足, 往往出现漏检、误检等现象。为引导用户正确地认识和应用关键词检索技术, 提高信息检索效率, 在此总结了一些关键词检索技巧。

1 准确选择关键词

1.1 对检索的内容、背景有初步的认识。

让一个不懂专业的检索高手检索专业文献肯定不会比一个初学检索的专业高手更强。正确选择关键词, 需要对查询内容有一定了解, 有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如, 查找有关“电动玩具”的英文资料, 一般会选择“Electrical toy”搜索, 但通过对其搜索结果进行分析, 可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如, 查找国外“指甲剪生产厂家”的信息, 从“"n a i l scissors"factory”的搜索结果可以了解到, “指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示, 使用“"Nail Clippers"Manufacturer”搜索可以更好地满足查询需求。

1.2 从表述方式、行文习惯、书写规则等方面揣度查询内容, 力求关键词与内容描述词的一致。

由于搜索引擎的形式匹配原理, 使用同一概念的不同词语搜索的结果截然不同。例如, 用“北京”搜索不会出现“首都”字样, “北京图书馆”找不到“国图”的有关内容, “WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此, 必须注意对习惯用语、专业术语、全称、简称、同义词、近义词, 以及拼音文字的前缀、后缀的了解和运用, 尽可能地提高关键词的形式匹配几率, 最大限度地减少误检和漏检。

2 使用关键词组合

从形式上看, 关键词的数量与结果输出成反比, 使用关键词越多结果输出越少。关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语, 不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语, 特征关键词可以有效地缩小搜索范围, 使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当, 查询内容仍然不在结果首页或前三页之中, 这时如果增加使用特征关键词, 搜索结果就会明显改善。例如, 查找国际象棋有几个棋子, 在百度中用“国际象棋棋子”搜索, 有42, 600项结果, 前几页结果均无明确的答案, 而增加特征关键词“个”, 以“国际象棋个棋子”搜索, 结果减少至1, 270项, 结果首页第一项即有“国际象棋共有32个棋子, 分为两方, 浅色的棋子称为白棋, 深色的棋子称为黑棋……”的网页摘要。

3 缩小关键词的外延

从语义上分析, 关键词的外延越小搜索结果越趋于准确, 如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索, 要比用“图书馆工作”更有实际搜索意义, 结果也更加具体、适用。

4 灵活运用组配符和限定符

通过运用语法对检索范围调整, 太大的缩小, 没找到的要放宽。

4.1 组配语法

使用“+”、“a n d”或“空格”, 把两个或两个以上的关键词连接起来搜索, 以缩小搜索范围, 增加搜索的精确度。“A|B”是并行搜索的表达式, 它用来搜索关键词或者包含A, 或者包含B的网页。“-”用于减除不相关资料 (百度搜索引擎在减号前后必须留一空格) 。双引号可将包括在内的多组字词作为整体搜索。许多情况下, 一个完整的概念需要用几组字词表达, 并且要求整体进行搜索, 如果将其拆分开来就会与原意不符, 使用双引号可将其作为一个整体来进行搜索。还有“*”和“?”, G o o g l e和百度均支持“通配符” (*) 。通配符是代表任一关键词的符号, 如:“追求*放弃”中间的通配符, 可以是“与” (追求与放弃) , 也可以是“和” (追求和放弃) 。

4.2 限定语法

site:表示搜索结果局限于某个具体网站或网站频道, 如:中华人民共和国劳动和社会保障部 (h t t p://w w w.molss.gov.cn/) 、新华网 (http://www.xinhuanet.com/) , 或者是某个域名, 如“n e t.c n”、“g o v.c n”, 等等。

url:返回检索结果具有相同属性信息特点。有很多网站把具有相同属性的资源编排在特定目录名称或者网页名称之下, 我们用url:语法可以找到这些相关资源的链接。

title:是对网页的标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此, 查询标题栏, 能够找到相关的专题页面。

link:用于搜索所有链接到某个URL地址的网页。大多数网站都建有友好链接, 让用户检索更多的同类信息, 所以, 我们通过链接网站link:的搜索, 一方面可以知道有多少网站对该网站做了链接, 另一方面可以查找到更多的同类网站信息。

此外, 指定文档是Google开发的一个搜索语法。目前, Google已经能检索微软的Office文档如:.xls、.ppt、.doc、.rtl、Word Perfect文档, Lotusl—2-3文档, Adobe的.pdf文档, ShockWave的.swf文档 (Flash动画) 等。

5 注意细节

在Internet上进行查询时如果能注意一些细节问题, 常常能增加搜索结果的准确性, 如许多搜索引擎都区分字母的大小写, 因此, 搜索人名或地名等关键词, 应该正确使用它们的大小写字母形式。还有使用更精确的词汇, 比如:不用“服装”, 而用“西服”;不用“flower”而用“rose”。但要尽可能删去一些同义词或近义词。另外, 关键词排名是当今大众流行的风向标, 了解它们就是把握潮流, 就是把握时尚。

搜索的过程是一个学习和信息甄别的过程, 要学会在搜索中选择和提炼关键词, 有时成功的设定检索词也是需要灵感的, 因此也会生疏遗忘的, 记录下这些灵感, 对以后重复或类似检索, 会很有启迪作用。丰富的搜索实践是成为搜索高手的必由之路, 以上技巧仅供参考。

参考文献

[1]丛立.计算机检索策略设计及技巧运用[J].图书馆学研究.2001年03期

[2]王明华.搜索引擎检索网络信息的方法和技能运用分析[J].科技情报开发与经济.2005年06期

专利检索中的关键词扩展研究 第4篇

在专利审查过程中, 检索是发明专利申请实质审查程序中的一个关键步骤, 其目的在于找出与申请的主题相关的现有技术, 以确定申请的主题是否具备专利法所规定的新颖性和创造性[1]。

在检索过程中, 通常采用关键词和分类号组合方式进行检索, 而以关键词作为检索字段更是首选检索方式。关键词属于人类自然语言, 表示其相近含义的方式多种多样, 例如计算机术语“存储器”, 在中文专利文献中还可表示为“储存器”、“存储设备”、“存储单元”、“存储装置”等, 表示具体的存储器形式还可为“内存”、“外存”、“缓存”、“贮存器”、“寄存器”等, 或者用英文缩写“ROM”、“RAM”、“DRAM”等表示, 此外, 在台湾申请人的专利申请文献中, “存储器”还可能被称为“记忆体”、“记忆棒”等[2]。因此, 不同背景、地区的人对同一特征的技术术语表达方式可能截然不同, 如果不进行必要的关键词扩展, 势必会导致检索结果不全面, 造成现有技术漏检等问题。

1 关键词扩展概述

对关键词进行扩展首先得选取基本关键词, 对检索主题进行分析, 以权利要求为基础, 结合说明书背景技术和具体实施例的内容, 重点关注发明申请中的发明点, 准确提炼出表示发明申请主题和发明点的词语作为基本关键词。提炼出基本关键词后, 对关键词进行筛选、补充、扩展。

专利检索中, 对关键词进行适当扩展是检索时的惯用手段。关键词的扩展可以借用现有工具, 如搜索引擎的关键词工具、相关搜索、搜索提示或者专利局专利检索与服务系统 (S系统) 的关联词查询工具, 也可以利用本领域词典、标准和技术术语库等工具书进行扩展, 从关键词的同近义表达形式、上下位概念、音形相近词、外来词及其相关概念等角度进行扩展[3]。例如触摸屏领域中的关键词“触摸”, 对其进行同近义词扩展, 可对“触摸”扩展关键词为:触控、触屏、触碰、接触、触感、触击、触点、触压、触按等。又如对软件进行补丁中的“补丁”一词, 扩展关键词“升级”、“更新”能表达与“补丁”相近的含义。

关键词的扩展还有很多角度, 可以从说明书中解决的技术问题、达到的技术效果入手, 例如一种改变角度进行焊接的发明, 在针对具体角度检索未果时, 可以尝试从改变焊接角度达到防止碎片飞溅的技术效果入手, 利用扩展关键词“飞溅”在全文库中进行检索;还可以对关键词的同在词进行扩展, 例如根据触摸屏传感特征, 关键词“触摸”还可扩展为传感、感应、电感、多点、多手势、电极, 扫描等, 上述词语一般是触摸屏文献中的和“触摸”同在的词语。

关键词扩展没有统一的策略和标准, 具体案例需要具体分析, 扩展是建立在本领域技术人员对发明方案理解的基础上来实现的。检索时, 关键词扩展也不是一步到位, 检索过程中需根据检索结果不断地调整检索策略, 以提高检索查全率。此外, 关键词扩展也应准确把握尺度, 盲目的扩展会带来检索噪声, 影响检索的查准率。合理、有效的关键词扩展, 能更快、更准地检索到现有技术。如以下案例, 就是通过对关键词的恰当扩展, 较好地检索到一篇能够影响权利要求创造性的对比文件。

2 发明申请检索案例

2.1 案例概况

申请号:200910085036.3, 申请日:2009年5月27日, 发明名称:一种数据过滤与合并的方法。该申请修改后的权利要求1为:

一种数据过滤与合并的方法, 包括:

按照数据的类型将数据的结构信息、过滤规则和合并规则存储在对应的配置文件中;

接收到数据后, 根据所接收的数据的类型读取出对应的配置文件, 根据所读取的配置文件中的结构信息和过滤规则滤除或保留该数据;若保留该数据, 则根据所读取的配置文件中的结构信息和合并规则将该数据与相应数据进行合并;所述数据的结构信息包括:数据的各字段的偏移量。

在现有技术中, 实现数据过滤与合并时, 由于不同数据类型具有不同的结构, 在每增加一种数据类型时, 都需要在代码中重新编码写入该数据类型的结构信息, 不利于系统的扩展。

该申请采用配置文件存储各种不同类型数据的结构信息、过滤规则和合并规则, 其发明点为:除了将数据的规律和合并规则存储在配置文件中, 还将数据的结构信息存储在配置文件中。该申请的方案不需要修改系统代码, 只需要将新增的数据类型的结构信息增加到配置文件中即可进行数据的过滤与合并, 增强了系统的可扩展性。

2.2 检索策略

1) 、提炼基本关键词

发明专利权的保护范围以其权利要求内容为准, 通过对权利要求1进行分析, 并根据说明书记载和申请人强调的发明点“数据的结构信息存储在配置文件中”, 将检索的重点选定到该发明点上, 提炼出基本关键词“过滤”、“合并”、“配置文件”、“结构信息”等。

2) 、扩展关键词

对关键词进行扩展, 根据本领域的公知常识, 配置文件一般是采用XML或INI的格式进行存储, 而XML是本领域通用的层次性数据交换配置文件, 具有跨平台、可移植性好等优势, 因此, 可将关键词“配置文件”扩展为关键词“XML”、“INI”。在提炼出本申请的检索要素后, 构造体现技术方案发明构思的检索要素表, 如表1所示:

在中国专利检索系统文摘数据库 (CPRSABS) 和中国全文文本库 (CNTXT) 中进行检索。

CNTXT?..HI

编号所属数据库命中记录数检索式

75 CNTXT 23 ( ( (合并or过滤) 8d (数据or规则) ) S (配置文件or XML or INI) S (数据结构or数据描述or脚本or类型or字段or偏移量) ) ANDPD<20090527

通过上面的检索式, 检索到一篇能评价本申请创造性的X类对比文件1, 公开号:CN101355774A, 公开日2009年1月28日。

2.3 检索结果分析

对比文件1公开了如下内容:采用XML配置文件对源数据进行描述, 该源数据描述指定如何过滤数据;将各业务数据结构和过滤条件存储在XML配置文件中;定义根据不同参数值以对数据进行处理的内容。因此对比文件1公开了本申请的发明点:将数据的结构信息和过滤条件一起存储到XML配置文件中, 针对不同类型的数据进行分别处理。

而两者的区别仅在于, 配置文件中还包含合并规则, 并利用该合并规则合并数据。在对比文件1中已公开了将过滤规则储存于配置文件中的基础上, 本领域技术人员很容易实现将合并规则也存储于配置文件中, 因此权利要求1不具备创造性。

3 总结

在对上述案例进行检索时, 通过将“配置文件”扩展为本领域常用的配置文件格式“XML”、“INI”, 很快的检索到一篇已公开该申请发明点的对比文件。因此, 对关键词进行有效扩展, 可以使检索事半功倍, 从而准确、高效地完成检索任务, 提高检索到XY类对比文件的成功率。

随着语义技术的发展, 现有的语义系统已能自动对关键词进行扩展, 只是目前机器扩展关键词的效果还远不如人工扩展, 有待今后进一步的探讨和研究[2]。

摘要:关键词检索是专利检索时的主要方式, 关键词属于人类自然语言, 其表达方式多种多样。本文从关键词扩展的角度出发, 论述了关键词扩展的必要性及常见关键词扩展方式, 通过实际检索案例论证关键词扩展的有效性, 在一定程度上减少漏检, 从而能更快、更准地检索出最相关的对比文件。

关键词:专利检索,关键词,扩展,现有技术

参考文献

[1]中华人民共和国国家知识产权局.专利审查指南2010[M].北京:知识产权出版社, 2010

[2]周胜生.专利文献的特点与关键词检索[J].PATENT EXAMINATION REVIEW, 2010, 2:59~63

基于关键词设置的P2P信息检索 第5篇

P2P是近几年来的一个研究热点, 具有自组织、容错能力强、可扩展性好等优点。在P2P环境下进行资源定位是P2P研究的核心问题。文献[1,2]提出的P2P信息检索的理念, 把P2P与信息检索相集成, 充分发掘各自的优点并相互克服对方的不足。P2P信息检索通过分布式存储和处理能力为大范围的Web文件搜索提供可能, 虽然已有许多基于P2P的应用系统, 但如何在大规模、分散化和分布式的P2P系统中构建准确、可扩展的信息搜索与发现机制仍然是当前亟待解决的关键问题[3]。

本文针对结构化P2P网络信息检索的检索质量及带宽消耗的特性, 深入分析该问题的根源, 并提出了一种基于请求驱动设置的结构化P2P索引框架, 采取了如下措施: (1) 删节与特征项 (或称关键词) 相关的存储文件信息的索引记录表至恒定长度。 (2) 选择通过关键词联合的新特征项设置来扩充索引特征, 并通过实验分析显示了该策略的有效性。

1问题的提出

1.1结构化P2P信息检索

传统的结构化P2P网络通过分布式哈希函数将数据严格地映射到对应的节点, 即对每个节点和文件信息进行哈希映射, 为每个节点和文件分配惟一节点标识ID和键K。文件的索引信息放到节点标识与键最接近的节点上。传统的结构化P2P系统具有高度的扩展性, 但只能支持精确查询。

1.2单关键词分割的结构化P2P检索模型

结构化P2P信息检索中, 为了支持多关键词查询, 提出了基于单关键词分割的文件索引, 每个节点Pi对本地存储的文件, 先抽取文件的关键词 (后文称特征项) , 然后为文件抽取的每个单关键词在网络节点上建立基于该关键词的文件索引, 即由哈希机制 (分布式哈希表DHT) 将文件信息发布到P2P网络中负责该关键词的节点上, 全部的节点为全部文件集D建立基于单关键词的索引 (本文称在网络中形成与单关键词相关的索引记录表) 。当出现多关键词请求时, 将请求分割成多个单关键词形式, 利用结构化P2P网络的数据查找机制获取每个单关键词的查询结果集合, 然后对每个单关键词的查询结果集合求交集得到查询结果[4,5]。

在这个模型中每个节点有两个责任, 一是负责存储、维护一部分本地文件, 向全局分布式索引中发布本地文件积累。二是负责维持与一些单关键词相关的索引记录表。节点们相互协作组成了全局的分布式单关键词的索引。每个节点维护一系列由哈希机制得到的单关键词的索引, 他们是全局索引的一部分, 构成了分布式索引, 如图1所示。

基于单关键词的信息检索也存在一些问题, 一方面语义支持能力差、检索质量不高, 另一方面, 与单关键词相关的索引记录表在传输中会消耗一定的带宽资源。

可以对基于单关键词分割的过程进行改进, 当与单关键词相关的索引记录表的长度超过预定的k, 就把它截断至top-k长度传输。在文献[6]和文献 [7]中都提出了基于top-k索引记录表的Bloom filters和缓存技术去减少由多关键词请求带来的信息检索消耗。但是, 最近研究[8]表明对于大规模的Web查找, 用基于top-k索引记录表的单关键词索引, 甚至是结合用Bloom filters去减少检索消耗, 仍然是缺乏扩展性的。

为了提高检索质量, 保证系统的可扩展性, 尽量减少网络的流量。可从下面两方面考虑:

(1) 提高检索质量 文件的特征项最大限度的覆盖请求关键词。

(2) 减少带宽消耗 多关键词请求时减少检索特征项的数量就充分减少了索引时对存储和带宽的要求, 另外, 可以严格限制索引记录表的长度, 即保留top-k索引记录表机制, 它仅仅需要传输一部分很小的数据, 查询过程可以保证消耗有限的带宽。这两个因素使得我们能够解决大规模网络的P2P信息检索的消耗问题。

2相应策略

在实际的检索中, 用户频繁出现的一些请求关键词对于将来出现的请求会有很大的用处。针对这种状况, 我们提出了一种基于请求关键词设置的索引框架KS-PIR。

2.1top-k机制

在P2P网络中, 所有节点为全部的文件集合D建立了一个全局的关键词的索引, 每个节点维护一些关键词相关的索引记录表, 相互传输的索引记录表的长度如果超过设定的阈值Kmax, 就把它删节为排序好的top-Kmax长度。

2.2检索模型

本检索模型请求过程和索引建立过程并行进行, 具体过程如下:

1) 当请求节点发送一个多关键词的请求时, 就把它分割为含有一个或多个关键词的一些子集, 每个子集成为一新特征项, 以这些特征项长度逐渐递减的顺序开始对每个特征项探测。

2) 每探测一个特征项之前都要由哈希机制到相关节点 (即对特征项进行哈希运算得到键, 找到节点标识与键最近的节点) 更新该特征项的请求热度值 (即本文2.3节) 。

3) 请求节点请求是否有符合该特征项的索引 (即是否存在与特征项相关的索引记录列表) , 若有则执行步骤4) , 否则获得该特征项的请求热度值并转步骤5) 。

4) 负责该特征项的节点返回该特征项相关的索引记录表, 再由原请求集排除此特征项含有的关键词求余集, 进一步探测其余特征项, 若其关键词包含于此余集就转步骤2) , 否则就跳过。

5) 特征项的请求热度值超过一定值时转为激发态特征项, 并在最后通过关键词通告机制 (本文2.4节) 建立该激发态特征项的索引。

6) 请求节点对返回的所有索引记录表的结果进行合并排序, 并把排序好的适当结果返回给用户。

对于一个特定的请求过程如图2所示, 当请求节点发送一个多关键词的请求 (k1k2k3) 时, 就把它分割为包含本身在内的一些子集 (k1k2k3, k1k2, k1k3, k2k3, k1, k2, k3) , 每个子集作为一个特征项, 以这些特征项长度逐渐递减的顺序开始对每个特征项探测, 请求节点请求是否有符合特征项的索引, 图中有符合特征项k2k3的索引而k1k2, k1k3没有, 则负责特征项k2k3的相关节点返回与之相应的索引记录表 (这里特征项k2k3的索引又是过去某次请求的激发态特征项通过关键词通告机制得到的) 。再由原请求集排除此特征项中关键词 (k2k3) 得余集 (k1) , 进一步探测中只有特征项k1包含于余集 (k1) , 同理特征项k1可索引, 负责特征项k1相关节点返回与k1相关的索引记录表。此过程中探测的特征项k1k2k3, k1k2, k1k3都更新该特征项的请求热度值P。最后请求节点对返回的索引记录表结果进行合并排序。

此模型请求过程中只要返回特征项k2k3和k1相关的两个索引记录表, 而传统的单关键词分割的索引模型要返回特征项k1、k2和k3相关的三个索引记录表, 因此由于减少了检索特征项的数量, 传输的索引记录表数量就减少了。

为了控制节点存储和传输的信息量, 特征项的长度不可能太大, 即可限制索引特征项的最大长度为m, 在当今Web检索中, 估计平均的请求关键词数是2和3, 所以也可以适当选取m值为2或3, 限制特征项的长度对全局的索引质量没有本质的影响, 对于m值的选择要符合绝大多数用户的请求小于等于m, 只有少数的请求大于m的情况。通过以上分析可总结出KS-PIR检索过程算法如下:

算法1 检索过程的算法

2.3请求驱动关键词的热度

请求热度值统计伴随着每一次的请求过程平行执行。当一个节点收到一个请求q时, 就把它分割为多个特征项, 从长度为m的特征项开始按长度递减的方式探测, 如:当我们探测一个特征项q′⊆q, 节点结合P2P网络探测是否存在与特征项q′相关的索引记录列表之前, 必须更新特征项q′的热度值P (q′) (P (q′) 反映特征项q′被请求的频度) , 假如统计的q′的热度值超过设置的阈值Pmin (P (q′) >Pmin (q′) ) , 则q′自动转为激发状态, 存储于waits。从而节点触发建立与 q′相关的索引记录表 (本文2.4节关键词通告机制) 。对于特征项的热度值, 定义如下:

定义1P (k) =q f (k) /︱R︱。

q f (k) 为对于k的请求次数, ︱R︱是全部的请求次数, 每个节点可估计全局请求次数︱R︱的近似值。

执行请求过程和特征项索引建立是两个并行的过程, 由请求驱动建立特征项索引的过程复杂, 所以当特征项可索引时, 对于该特征项的请求热度值就不用获得。

本模型可建立在已有的单关键词索引的基础上, 为了避免激发态特征项的冗余, 也可对于激发态特征项进行具体定义。

定义2 激发态特征项:当且仅当一个特征项k的长度大于2 (︱k︱≥2) , 且P (k) >Pmin (k) 。

在请求过程中, 当一个特征项的符合激发态特征项的定义, 将自动转为激发状态, 关键词通告机制将建立激发态特征项相关的索引记录表并存储于网络中, 并可能被用为将来请求的返回结果。

2.4关键词通告机制

对于激发态特征项k, 采用一种关键词通告机制, 通知网络上所有的节点某个确定的请求关键词 (特征项) 已经被激发, 同时节点自动触发在网络中建立与k相关的索引记录表。

通告消息可采用多播的方法, 请求被发送到一部分节点, 等到TTL完, 或请求热度值再次增加, 再发送给下一部分相连的节点, 直到所有节点被通知。

节点收到通知的同时便检索本地文件, 将符合特征项k的文件索引发布到网络 (即发布到负责k 的节点) 。最终便在网络中建立与k相关的索引记录表, 可合理设置文件与激发态特征项相关性的阈值Sm, 假如对于激发态特征项与某个文件相关性低于Sm, 则不需要发布信息。具体算法如下:

算法2 关键词通告算法。

3实验分析

实验基于结构化P2P平台Chord实现了一个P2P模拟系统, 采用的文档集来自Wikipedia[9], 从Wikipedia得到一段时间的真实的请求日志。基于请求日志实行一个请求产生器, 它能够随着请求的观察产生随机的特征项。实验的相关参数设置为:Kmax=50, Pmin=3/2000, m=3。本实验针对多关键词查询, 为评估本模型的有效性, 与结构化P2P网络中基于单关键词分割的索引模型 (简称单关键词) 性能进行比较。分别用信息检索中的查准率和带宽利用率来评价KS-PIR的性能。

3.1查准率

查准率的比较如图3所示。

如图3可得, 随着请求数量的增加, KS-PIR的查准率逐渐提高, 而单关键词的检索基本不变。这是因为KS-PIR的特征关键词是由请求驱动的, 通过对关键词联合设置的特征项对于文件有更高的鉴别能力, 从而提高了检索质量。而单关键词的检索与请求过程没有多大关系。

3.2带宽利用率

带宽利用率用平均消息量来衡量, 其比较如图4所示。

由图4可知, KS-PIR的带宽消耗相对于单关键词检索是可以接受的。这是因为KS-PIR模型使得系统在检索质量提高的同时降低了带宽消耗, 一方面通过对索引记录表长度限制为Kmax来减少检索中传输的流量, 另一方面, 因为请求时可索引特征项数量的减少, 从而减少检索中传输的流量。

4结论

本文利用请求热度关键词的特点提出了基于请求关键词设置的索引模型KS-PIR, 通过选择关键词联合的新特征项设置来扩充索引特征, 提高了检索结果的质量。由于请求时可索引特征项数量的减少, 降低了带宽的消耗, 另外, 通过删节与关键词有关的索引记录表至恒定长度, 从而进一步减少了带宽的消耗。实验分析KS-PIR具有良好的扩展性。

摘要:在分析以往结构化P2P基于单关键词分割的信息检索基础上, 结合利用用户频繁出现的请求关键词的特点, 提出结构化P2P中的一个基于请求关键词设置的索引框架KS-PIR。采用通过关键词联合的新特征项设置来扩充索引特征, 并删节与特征项相关的索引记录表至恒定长度的方法, 在检索质量提高的同时, 又保证了可接受的带宽消耗, 系统具有很好的扩展性。

关键词:P2P,信息检索,分布式哈希表

参考文献

[1]凌波, 吕永成, 周水庚, 等.P2P信息检索及其优化策略[J].计算机科学, 2006, 33 (8) :173-177.

[2]Cuenca-Acuna FM, Nguyen TD.Text-Based content search and retrievalin ad hoc P2P communities.Department of Computer Science, RutgersUniversity:Technical Report DCS-TR-483, 2002.

[3]DaswaniN, Garcia-MolinaH, YangB.Open problems in data sharingpeer-to-peer systems[C]//CalvaneseD, Lenzerini M, MotwaniReds.Proc.of the9th ICDT.Heidelberg:Springer-Verlag, 2003:1-15.

[4]Feng Z, Li Z, Ben Y, et al.Approximate object location and spam filte-ring on peer-to-peer systems[C]//Proceeding of ACM/IFIP/USENIXIntl.Middleware Conference (Middleware'03) , 2003.

[5]Reynolds P, Vahdat A.Efficient peer-to-peer keyword searching[C]//RiodeJaneiro, Brazil:Middleware'03, 2003.

[6]Reynolds P, Vahdat A.Efficient Peer-to-Peer Keyword Searching.Mid-dleware 03, 2003.

[7]Suel T, Mathur C, Wu J W, et al.Odissea:A Peer-to-Peer Architecturefor Scalable Web Search and Information Retrieval.WebDB’03, 2003.

[8]Zhang J, Suel T.Efficient query evaluation on large textual collectionsin a peer-to-peer environment.Washington, DC:P2P’05:Proceedingsof the Fifth IEEE International Conference on Peer-to-Peer Computing (P2P’05) .2005:225-233.

关键词检索论文 第6篇

1 关键词选择的基本原则

1)关键词的数量一般为3~8个。关键词的数量在一定程度上与反映、揭示文献主题的深度密切相关,选取的关键词越多,揭示文献主题就越深,可供检索、利用的概率也就越高。因此,建议尽可能多列关键词,当然,也不宜超过8个。

2)关键词的用词要能反映和揭示文献主题,并具有检索意义。所选用的词应是单词(只包含一个词素的词)和术语(某一学科的专业用语),也就是说,关键词应是单义性的,即一个关键词应表达事物的一个概念。有些名词性词组也可选取作为关键词。如交通信息、信息高速公路、等。冠词、介词、连词、感叹词、代词一般不能选取作为关键词。

3)关键词的选取方法包括直选法和提炼法2种。直选法是直接从论文的题名、摘要和正文中选取关键词。有的论文的某些主题在题名、摘要,甚至在正文中表达并不是很明确,但又隐含着某一主题内容,这时就要运用提炼法,即通过对文献题名、摘要和全文作主题分析并经提炼后得到某个关键词。

2 关键词选择案例分析

下面选取《交信息与安全》2014年第1期“基于概率模型的交叉口感应信号控制研究”(景泰等)的关键词作为范例进行分析。

这篇论文的摘要为“考虑多种因素影响下初始绿灯时间和车辆到达服从概率分布特征,提出了1种交叉口感应控制最大绿灯时间优化模型,以交叉口平均延误、停车次数、排队长度为评价指标,利用Vissim仿真软件,将该模型与传统感应控制模型进行对比。仿真结果表明提出的算法在不同的饱和度下改进效果比较明显,尤其当交通量较大、饱和度较高时,传统感应控制控制效果很有限,而该模型改进效果依然显著。”

从论文的标题中可以看出这篇论文的研究对象是交叉口感应控制,可以把“感应控制”、“交叉口”作为关键词,从摘要中可以看出,作者主要运用Vissmi仿真软件对信号配时进行了优化,因此,“Vissmi仿真软件”“信号配时”。作者选取“感应控制”“Vissmi”、“单交叉口”、“绿灯时间”作为关键词,基本遵循了上述原则。

3 小结

基于语义的视频检索关键技术综述 第7篇

早期的图像数据库沿袭了传统的数据库检索方式,采用文本进行检索。这种对视频手工建立关键词用文本描述信息的方式,已不适应视频信息检索的要求。主要原因在于:(1)视频内容丰富,仅使用几个关键字很难将其内容描述清楚。(2)依靠人工对视频数据进行内容概括并标注,其工作量大、成本高、效率低、可扩展性差。(3)人工标注的主观性强,同一段视频,而不同的标注者可能标注不同,也可能不是同一段视频不同的标注者对其标注相同,由此可能引发矛盾和混乱。因此传统的方法不能满足人们实际应用的需要。

人们习惯用语义概念检索自己需要的视频,但由于底层特征和高层语义概念之间存在语义鸿沟,在语义概念层次进行视频内容的描述和操纵面临较大的困难。如何从视频内容中提取人类思维中的语义概念,成为目前视频内容检索中具有挑战性的研究内容[1]。

尽管随着人工智能、图形处理、多媒体技术等技术的发展,前人也做了大量相关工作,基于语义视频检索系统的查全率、查准率有了一定的提高,但离真正的实际应用还有较大的距离。存在以下不足:(1)视频的特征信息提取不全面、不准确。有些特征效果不好,不能准确地实现高层语义映射。(2)不能有效地降低视频底层特征和高层语义概念间的语义鸿沟,直接影响检索精度。(3)视频图像中包含大量的语义信息,并且这些信息之间存在复杂的关系,因此需要一个具有强大的表达能力的方法;其次,由于图像理解的主观性,视频图像语义的表示方法需要一定的模糊和非精确性,用以支持视频图像的相似度检索。

1 国内外研究动态

视频信息检索是多媒体领域的重要研究课题,是跨越图像处理、计算机视觉、模式识别、人工智能以及数据库等领域的交叉学科,是对文本、图像、声音等多种媒体形式的综合分析和查询。当前视频信息检索的研究主要集中在两大类:一类是基于视频低层特征的样例或样图查询(Query by Examples);另一类是基于视频描述信息的语义查询(Query by Keywords)。第一类属于基于样本视频或图片的查询,是利用用户给出的查询样例,提取样例视频和数据库视频的低层物理特征,并根据一定的相似度度量,通过计算二者之间的相似度得到用户所需的查询结果。第二类属于基于关键词的查询,是通过对视频库中的视频数据进行高层语义分析,通过用户提供的查询关键词对视频内容进行检索。这两类视频检索方法分别从低层物理特征和高层语义特征两个方面,对视频内容进行分析和检索,是视频检索领域两个重要的研究方向。从2001年至今,诸如CMU、IBM等研究机构已相继提出了一些优秀的高层语义提取算法,并且取得了较好的研究成果[2]。典型的视频检索系统主要有:

(1)QBIC(Query By Image Content)系统。

其允许用户使用例子图像、用户构建的草图和画图及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。

(2)Visual Seek系统。

是美国哥伦比亚大学研究的一种在互联网上使用的基于内容的检索系统。Visual Seek同QBIC一样提供了多种查询方法:根据视觉特征、图像注释、草图等。

(3)VideoQ系统。

是哥伦比亚大学的一个研究项目,它扩充了传统的关键字和主题导航的查询方法,允许用户使用视觉特征和时空关系来检索视频。

(4)Photo Book系统。

由美国麻省理工学院媒体研究室研究的Photo Book系统,能够支持相似性图像的检索,可以利用人脸、形状、纹理、相片簿等分别对人脸图像、工具和纹理进行基于内容的检索。

2 视频检索系统关键技术

视频语义检索模型主要包括底层特征提取模块、底层特征向高层语义映射模块、视频语义查询模块[3]。

2.1 底层特征提取模块

该模块主要包括:视频镜头检测、关键帧提取、特征提取3种关键技术。

视频镜头检测是将视频自动地分割为镜头以作为视频基本的索引单元,因此镜头的自动分割是视频结构化的基础。视频镜头的边界变换分为两大类:突变(cut)和渐变(Gradual Transition)。目前已经提出的算法,从方向上可分为两类:(1)非压缩域。(2)压缩域。在非压缩域,典型的镜头边界检测算法包括像素差异法、统计量法、直方图法、基于边缘及运动特征的方法及基于编辑模型的方法等[4]。由于现在多数视频都是压缩的,所以在压缩域进行镜头检测是一个趋势。压缩域视频则表现为3种类型的帧,分别为I帧、P帧和 B帧。I帧为主要信息携带者,其表现为DCT系 数,DCT系数又分为直流系数(DC)和交流系数(AC),文献[5]提出了一种基于RS理论的压缩域镜头分割算法。该算法首先根据MPEG压缩标准,从视频流中提取DCT系数;经预处理得到每一帧的DC系数;最后依据DC系数建立镜头分割信息系统模型,通过RS理论的划分与属性约简得到视频镜头。

关键帧提取模块。由于镜头中包含大量相同或相似的视频内容,存在冗余性,可以在每个镜头中提取最具代表性的、反映该镜头主要内容的若干帧来代替这个镜头,这些帧称为关键帧。通过关键帧的提取,可以用微小的数据量把一个镜头的静态特性表示出来,从而在视频检索中大大地减少数据量,为视频索引浏览和检索提供合适的摘要减少了视频操作的数据处理量。

典型关键帧的提取算法有:(1)基于镜头边界的方法。(2)基于视觉内容的方法。(3)基于镜头运动的方法。(4)基于运动分析的方法。(5)基于聚类的方法。这些方法各自有优缺点,根据不同的应用环境和应用要求,选择合适的方法。

近年来又提出了一些新的方法和改进的方法,文献[6]提出了一种类模糊C均值聚类的关键帧提取算法,用该算法提取的关键帧不仅可以充分表达出视频的主要内容,而且还可以根据内容的变化提取出适当数量的关键帧。缺陷是需要首先设定一个最初聚类中心。文献[7]是对文献[6]进行的改进,提出一种基于无监督聚类的自适应阈值改进算法。

特征提取模块。是对前一模块的关键帧,提取视觉特征和非视觉特征。其中视觉特征主要包括颜色、纹理、形状及运动等的低层视觉特征,以及提取场景、行为等高层语义特征。非视觉特征包括音频特征、文本特征等。现阶段主要对视觉特征的研究居多,其中底层视觉特征分为全局特征和局部特征,常用的全局特征有颜色特征,纹理特征、形状特征等。常用局部特征,例如SIFT特征,将图像中关键点的局部表观信息作为图像的特征。全局特征和局部特征的结合,视觉特征和非视觉特征的结合,能有效提高视频检索的检索效率和准确率。

2.2 底层特征向高层语义映射模块

底层特征空间包括视觉特征和非视觉特征,这些特征一般可以从视频数据中直接提取。语义概念空间对应于人们通常思维中的高级语义概念。从认知层次角度进行视频语义划分的语义概念,主要包括事件、场景/地点和对象3类。但底层特征对用户不可见,只有将其映射到高层语义概念空间,才能使用户识别,它们之间无法直接用数学模型完成映射转换,这两个空间之间存在着难以直接跨越的语义鸿沟,如何解决语义鸿沟是视频语义检索研究的重点。

底层特征向高层语义映射模块主要使映射变换模型的构建,即语义概念分类模型的构建。提取视频语义的主要方法包括概率统计方法、统计学习方法、基于规则推理的方法、结合特定领域的等方法。

(1)概率统计方法。

将视频语义对象提取看作是待提取视频语义对象的分类问题,利用模式分类方法来尝试跨越语义鸿沟。语义检索的随机方法关注的是模型概率特性,其核心思想是用随机数学方法来描述对象的不同特征并存此基础建立多媒体概念模式分类器。随机模型中加入学习/识别模块,主要是为了能反映媒体内容本质的非确定性[8]。

(2)统计学习方法。

支持向量机(Support Vector Machine,SVM)基于统计学习理论,建立在计算学习理论的结构风险最小化原则之上。其目的是在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。此类模型在只有小训练样例集的情况下,分类效果较好。

文献[9]先提取训练图像库的底层特征信息,然后利用SVM对所提取的特征进行训练,构造多分类器。在此基础上,利用分类器对测试图像自动分类,得到图像属于各个类别的概率。文献[10]提出一种基于主动学习SVM分类器的视频分类算法。该算法分为两个步骤:首先分析并提取与视频类型有关的10维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系。

(3)基于规则推理的方法。

基于规则推理的方法考虑直接从系统外给定分类标准,因此语义概念的种类固定,难以满意地描述视频内容中大量随机出现的语义概念。文献[11]通过分析足球视频的语义结构,按照足球比赛转播、视频编辑的一般规律,结合视频特征的时空关系,定义足球视频主要的语义规则,从而提出了足球视频语义事件的分析框架结合基于专业知识的规则推理,达到有效分析足球视频语义的目的。

(4)结合特定领域。

通过限定、缩小视频领域(Narrowing the Donmin)是目前跨越语义鸿沟的有效方法之一。限定特定的领域后,语义概念和事件的随机性就被缩小了,简化了底层和高层之间的语义映射关系。例如在影片语义分析领域,Rasheed等结合影片的特点只用4个视觉特征将电影分为悲剧、动作、戏剧和恐怖片几种类型,达到影片语义分类的目的[12]。

完全手工标注的不足之处在前面已经提到过,基于机器学习的标注方法采用统计学习领域的最新研究成果,为低层特征和高层语义特征之间建立了映射,基于机器学习的方法通过对手工标注的训练视频数据的学习,建立各语义概念的模型,然后用该模型对未标注的视频数据集进行分类,标注对应的语义概念[13]。文献[14]利用机器学习对视频的视频类型层标注,关键帧图像层标注和图像中的物体层标注4个层次进行研究。

2.3 视频语义查询模块

视频语义查询模块使用户通过查询接口输入相应的查询语义,系统应能在视频语义库中进行信息匹配,并将查询结果返回用户。用户根据本次查询结果与自己期望结果间的相关性,向系统提交相关反馈信息。相关反馈在信息检索中是一种指导性学习技术,用以提高系统的检索能力。近几年,人们对相关反馈有了很深的研究,许多新颖的算法被提出,主要有3类:第一类是以Rui为代表的权重调整算法[15];第二类是基于支持向量机的反馈方法[16],是在每次反馈过程中对用户标记的正例和反例样本进行学习,建立SVM分类器作为模型,并根据该模型进行检索;第三类是基于Bayes准则的相关反馈方法[17],其基本思想是根据用户反馈的信息进行统计判断。

2.4 语义词典的应用

在视频检索系统中,利用文本标注对图像进行检索是比较常用的方法,但一般的系统都是先对标注作简单的文字匹配,然后提交相应的结果。文本标注和用户输入二者文字不同,而语义一致,这种方法就无法检索到相应的内容,虽然有些系统能对这类同义词作例外处理,但却无法穷举所有的情况,更无法对更高层次的语义作检索。

许多研究者把语义词典引入到基于语义的视频检索中来[18],实现图像语义关键词的扩充,提高了检索的全面性。WordNet是一个英文词汇的语义本体,它以认知同义词集合为单位来组织词语的关系。其中词语的关系包括上下位关系、整体部分关系、同义反义关系等。正是由于wordNet的这种构建方式,越来越多的研究者将其引入到了信息检索领域。文献[19]描述了一个基于本体词汇的三维模型语义检索的方法,该方法首先对一个三维模型库的词汇进行语义上扩充,然后基于关键词进行检索,而不是简单的文字匹配。

3 结束语

介绍了语义视频检索技术的国内外研究动态及研究内容和方法,总结和归纳了现有研究方法的不足。在特征提取方面,现阶段的研究主要集中在视觉特征的提取,继续提出一些新的特征是一个研究方向,同时将视觉特征和音频、文本特征有效地结合是下一阶段研究的重点,这样才能全面、准确地表达视频的内容。如何有效选择特征,及对特征的的融合,是研究的另一个重点方向。

底层特征向高层语义映射模块中视频标注和语义扩展,这个问题一直是语义视频检索的瓶颈,有待进一步的研究和深化。目前视频检索中用的语义概念还主要针对对象语义,对场景语义、行为语义和情感语义的研究还较少,这些语义的不断丰富,有利于视频内容的语义细化描述,建立层次语义的检索,进而使得视频检索更接近和满足实际应用。

摘要:随着大量视频的出现,视频内容检索是当今多媒体应用的一个重要研究方向。现有的视频检索技术多是基于低层特征,这些低层特征与高层语义概念相差较多,严重影响了视频内容检索系统的实用性。由于低层特征和高层语义概念间的语义鸿沟,如何从视频内容中提取人类思维中的语义概念,正成为目前视频内容检索中最具有挑战性的研究内容。文中介绍了语义视频检索出现的背景和国内外最新研究动态,分析了现有方法的优缺点,对现有的关键技术进行综述。

基于综合特征分析的视频关键帧检索 第8篇

关键帧的使用大大减少了视频索引的数据量,同时也为查询和检索视频提供了一个组织框架。正是由于关键帧的提取在基于内容的视频检索中占有非常重要的地位,近年来受到了研究者的广泛关注,也取得了一些研究成果。目前关键帧选取方法主要分为基于镜头边界法、基于帧图像信息法和基于运动的分析法,实现方法各有优劣[1,2,3,4]。

MPEG-7的核心是用来描述一系列视频音频内容的描述子,一个描述子定义为一个特征的表示。随着MPEG-7标准的公布,已有QBIC,Virage,MARS,Visual SEEK等一系列视频/图像检索系统面世。而传统的依据颜色、纹理和形状等作为特征进行检索的技术得到进一步发展。颜色直方图是图像颜色特征最普遍的表示方法,Swain和Ballard提出了直方图交集,Ioka等在比较颜色直方图后引入相关矩阵度量[5];纹理特征除了早期的共生矩阵外,在小波变换引入学术界后,使得Gabor变化相对其他纹理描述而言取得了更优的性能;而形状特征最成功的描述是傅立叶描述子和不变矩。

笔者依据选取出的关键帧组成的图像库,通过示例样本和图像库图像之间相似匹配度量,实现了对关键帧基于内容的检索。即通过将图像的视觉特征(图像的颜色、形状、纹理等)作为特征向量进行提取,然后将示例图像的特征向量与系统中存储图片的特征向量进行相似度比较,按相似度大小排列返回给用户。

2 关键帧提取算法

笔者采取的是基于镜头内容变化随时间自适应地选取关键帧。由该方法选取的关键帧,其数目不受最大定值的限制,做到了镜头内容差别变化大时多选取,变化小时少选取,并能充分反映各种镜头的内容。

对于一维连续信号g(x),要选择离散点{x1,x2,…,xn},使{g(x1),g(x2),…,g(xn)}形成对信号g(x)的变化特点有良好简要的表示,必须使g(xi)与g(x1)(i=1,2,…,n-1)间能存在足够的差异。设镜头S由帧序列f1,f2,…,fn构成。由此,可得到时间自适应的关键帧提取算法。

1)选择f1为关键帧输出;

2)i=1,m=2;

4)若sd>δ,则选择fm为关键帧输出,并令i=m;

5)m=m+1;

6)若m>n,则结束退出,否则转向3)。

其中,δ是一个阈值,用来控制关键帧的选择数目。

3 基于内容的关键帧检索系统的建立

3.1 关键帧检索系统研究的基本框架

笔者从视频处理的层次化结构最底层的分析入手,构建了视频的连续帧图像序列,研究并运用时间自适应检测法对镜头的关键帧进行了选取,建立了关键帧图像数据库。在此基础上,对图像特征进行了分析和特征提取,采用图像特征相似匹配检索法实现了基于关键帧的视频内容检索。图1为研究内容的基本流程框架。

3.2 特征提取及分析

根据图像中各对象的颜色、纹理和形状等特征计算两幅图像内容的相似程度进行检索。

1)颜色特征分析

颜色是图像最基本的和直观的特点,在检索过程中,颜色的表征描述通常有多种方法:直方图法[6],累积直方图法,局部累加直方图法,颜色布局法,中心矩法等。笔者采用可较好符合人眼感知特性的HSV颜色模型,将图像中每一像素的r,g,b值转化为h,s,v值。区域的颜色特征用该区域的平均色代表,为了方便颜色相似度的计算,将(h,s,v)色度坐标统一转换为柱坐标系下的欧氏空间坐标(C1,C2,C3)表示

颜色的相似度公式为

2)形状特征分析

形状特征提取的典型方法有:几何参数法[7],不变矩法,边缘方向直方图法,小波重要系数法,切线空间法等。笔者提取的形状特征包括形状的大小ρ,形状离散度v和离心率e[8]。

形状的相似度公式为

3)纹理特征分析

纹理特征需要在包含多个像素点的区域内进行统计计算,所以,它是一种统计特征,具有旋转不变性,并具有较强的抗噪声能力。在这里纹理特征用Cosine距离度量[9]

仅仅依赖单一视觉特征进行检索,效果往往不够理想。例如颜色特征的缺陷在于不能很好地描述对象的局部特征;形状特征的缺点是目标物体发生变形时检索结果不可靠;纹理特征的主要缺陷在于受图像的分辨力、光照和反射的影响比较大。笔者提出的解决方法是以综合特征作为图像检索的基础,获得图像的综合特征并将其作为图像相似性的衡量依据。

3.3 相似性匹配

图像间的相似性匹配主要通过计算两幅图像的归一化综合特征向量的欧式距离,进行相似度衡量。

3.3.1 欧氏距离定义

一幅M×N的图像被看作M×N维欧氏图像空间的一点,每个坐标值对应一个像素的灰度值。这样两幅图像x,y间的距离定义为

3.3.2 特征向量归一化

特征向量内不同特征分量的幅度变化较大,而且不同特征向量的物理意义也不同,相似距离的可比性差,因此在利用综合特征进行图像检索时,不仅需要对特征向量内部的特征分量进行归一化处理,还需要对不同特征向量进行归一化处理。能保证不同的算法在加权中处于平等的地位,保证不同特征向量在进行检索时具有相同的作用。

1)内部特征归一化

特征向量内部归一化的目的是使特征向量内部各分量在相似度量时具有相同的地位。将特征向量记为:F=[f1,f2,…,fN],N是特征元素个数,用I1,I2,…,IM代表图库中M幅图像S,对于图像Ii,其对应的特征向量记为fi,1,fi,2,…,fi,N。

这样,由图像数据库中M幅图像,就可以得到一个M×N的特征矩阵F=fi,j,其中fi,j是Fi的第j个特征元素。F的每一列是长度为M的特征序列,表示为Fj′,即Fj′=[f1,j,f2,,…,fm,j],设Fj′是高斯序列,计算其均值mj和标准差σj,然后利用式(5)就可以将原序列归一化为N(0,1)的分布

2)外部特征归一化

在利用综合特征进行图像检索时,需要对不同特征向量进行归一化处理,保证不同的特征向量在加权中处于平等的地位,以及在进行检索时具有相同的作用。外部特征归一化的实质是对图像库中所有图像之间的相似距离进行归一化,仍可使用高斯归一化方法。

设一个n维的特征向量为:F=[f1,f2,…,fn],用I1,I2,…,Im表示图库中的图像,则对其中任意一副图像Ii其对应的特征向量为Fi=fi,1,fi,2,…,fi,n,对其进行归一化,步骤如下:

(1)计算图像数据库中任意两个图像I,J所对应的特征向量Fi和Fj间的相似距离(i,j=1,2,…,m,且i≠j)

(2)计算由式(6)计算的m(m-1)/2距离值的均值mD和σD;

(3)对查询图像Q计算其于图像数据库中每个图像的距离,记为D1Q,D2Q,…,DmQ,并对它们按照式(7)进行高斯归一化

(4)按式(8)进行线性变换,将其变换到区间[-1,1]

4 实验结果分析

4.1 对比检索实验

为了检验笔者提出的基于综合特征分析的检索算法的性能,用基于颜色特征的色调局部累加直方图和采用MarKov性图像形状特征和色调局部累加直方图特征综合法[10](以下简称形状颜色特征综合法)和笔者使用的综合特征图像检索技术作对比。如表1对库中图片进行检索的所返回的前7幅图像进行分析。

最左边的是以灰色汽车为主要目标的查询样本,从示例样本往右依次为7幅关键帧图像。从表2所示的距离值可以看出,每种方法得到的第1帧都是与样本特征距离最小的图像帧,也就是特征最相近的图像帧。而检索返回的其他6幅图像帧都是按照与查询样本特征相似度由大到小排列的。

结合检索结果,通过性能指标对各种算法进行评价,从而比较出相同的条件下各种算法的优劣,找出最佳方法。根据模式识别的原理,其结果如表3所示。

在评价图像检索算法性能时,通常有两个主要的性能评价指标,即检索率(又称查全率或回召率)和准确度(又称查准率或检索精度)。评价指标如表4所示。

检索率是指返回的检索结果中有效图像结果占图像库中所有有效图像数量的比率;准确度是指返回的检索结果集中有效检索结果的比率。检索率和准确度可表示为

检索率=检索结果中有效图像数/图像库中所有有效图像=A/(A+C)

准确率=返回结果中有效图像数/返回的所有检索结果数=A/(A+B)

由此可知,检索率和准确率都在[0,1]之间,且检索率和准确率越高,该算法的检索效果就越好。

从表1第1行所示前7幅结果可以看到,有效图像为3幅,分别是前2幅和第4幅,而非有效图像为3幅。由于该方法只考虑了颜色的统计分布特征,完全忽视了其他的空间分布信息,因此,误检是不可避免的,造成了该方法检索准确度的下降。同样,方法2由于只考虑了颜色和形状特征,准确率比单一特征的检索方法有所提高,在返回的前7幅图像中,有效图像为4幅,而且检索率和准确率都较上一种方法有所提高。但与笔者的方法相比较,检索率较差,仅为50%。经过试验证明,本文的方法克服了前2种方法的依赖较少特征的缺点,误检现象减低,且检索率和准确率都有较大的提高。

4.2 基于关键帧的视频检索

笔者采取的是基于镜头内容变化随时间自适应的选取关键帧,经过反复设置阈值提取关键帧,发现阈值设置在0.7~0.8间最为合适。阈值太小,提取的关键帧数量较多;阈值太大,提取的关键帧数目太少,不能充分代表镜头内容。与传统的关键帧提取方法相比较,笔者方法选取的关键帧更能代表镜头内容,而且数量的多少也可以根据阈值的设置来选择。

笔者提取了10个广告视频的关键帧共108幅,形成关键帧数据库,图片存放的格式为.bmp,并且每幅关键帧图片的名称标注包含视频名字和所在帧数,并利用基于综合特征分析的检索系统实现。

为了验证本系统的检索性能,选择了关键帧序列中一张火车的远景图作为示例图像进行检索,如图2所示。

返回检索的前7张关键帧分别如图3所示。

观察检索结果,发现这7张图片均属于同一视频,与示例图片均来自同一视频,检索的准确率很高,但是由于图片分辨力等的原因,漏检了一张火车冒烟的关键帧,影响了检索率。由于检索综合考虑颜色、纹理和形状特征,所以第2张图片虽然颜色和示例图片不相关,但是由于其他特征的影响,使得它与示例图片的相似度也较高。所以,如何合理分配各种特征在检索时所占的权重,使检索结果更准确,是下一步的努力方向。系统的另一个创新点是方便其他特征的加入,只要是经过特征归一化的处理,就可以在检索时起到相似度量的作用。

将来的工作除了进一步研究新的特征,更要注意与用户交互反馈,进一步提高检索的准确率和检索率。

参考文献

[1]章毓晋.基于内容的多媒体信息检索CMIR与国际标准MPEG-7[C]//第九届全国图像学学术会议论文集.西安:中国图象图形学学会,1998:9-16.

[2]覃政仁,吴渝,王国胤.一种基于Rough Set的海量数据分割算法[J].模式识别与人工智能,2006,19(2):249-256.

[3]袁哲,吴渝,王国胤,等.基于Rough Set的视频分类的视频检索[J].计算机科学,2005,32(8A):20-23.

[4]王珽,吴渝,陈龙.一个基于Rough Set的关键帧提取方法[J].计算机科学,2006,33(11A):76-77.

[5]IOKA M.A method of defining the similarity of images on the basis of color information[EB/OL].[2008-03-16].http://ci.nii.ac.jp/naid/110002870206/en/.

[6]SWAIN M J,BALLARD D H.Color indexing[J].International Journal of Computer Vision.1991,7(1);11-32.

[7]NIBLACK W,BARBER R.The QBIC project:querying images by content using color,texture and shape[J].Proceedings of SPIE,1993,1908:173-187.

[8]LEU J G.Computing a shape moments from its boundary[J].Pattern Recognition,1991,24(10):949-957.

[9]万华林,CHOWDHURY M U,胡宏,等.图像纹理特征及其在CBIR中的应用[J].计算机辅助设计与图形学学报,2003,15(2):196-199.

上一篇:学生胜任力开发下一篇:乳品工业