信息检索课程的论文题目范文

2024-07-20

信息检索课程的论文题目范文第1篇

信息检索课程的论文题目范文第2篇

摘要:该文对当前Web信息检索技术进行分析和研究。分别介绍了三种经典检索模型和基于潜在语义分析的检索技术,以及基于超级链接分析研究的搜索算法,并进行了比较和分析,最后,指出当前信息检索的智能化发展方向。

关键字:Web信息检索;潜在语义分析;LSA;链接分析

文献标识码:A

信息检索课程的论文题目范文第3篇

关键词:标准文献 检索 GOST ABNT SABS BIS

Contrastive Analysis of the Retrieval Information of BRICS Standard

Lin Bin

( Zhejiang Institute of Standardization )

Dong Zhihui, Wang Lili, Chen Xixi

( Zhejiang Fangda Standards Information Co. Ltd )

Key words: standard document, retrieval, GOST, ABNT, SABS, BIS

1 引言

标准文献是指记录标准化活动、知识、成果的各种载体[1]。标准信息检索平台是标准信息用户最常用的标准文献信息源,也是国际标准组织依托自身的资源优势和技术优势构建的标准检索平台,使得标准信息和数据的解释上更加全面、真实。金砖国家(BRICS)包括中国、俄罗斯、印度、巴西以及南非5个国家,国家之间遵循开放透明、团结互助、深化合作、共谋发展原则和“开放、包容、合作、共赢”的金砖国家精神。本文选取“金砖国家”的俄罗斯、印度、巴西和南非4个国家的标准检索平台进行分析、比较和评价,方便用户在标准检索时选择使用,也为我国标准文献检索平台的建设提供参考,并且以国外标准组织的检索平台作为标杆,对国内文献检索平台的建设给出相关建议。

2 金砖国家标准文献的检索平台

2.1 GOST

1993年6月10日,俄罗斯联邦《标准化法》的发布标志着俄罗斯标准化工作从此步入了法制化轨道。2003年,俄罗斯联邦国家标准化与计量委员会通过第63号决议,“现行的全国标准仍保留国家标准原来规定代号GOST R和跨国标准原来规定代号GOST。”俄罗斯联邦现在执行的标准化规范文件主要有以下几种:独联体跨国标准GOST;独联体跨国建议与跨国规则PMΓ与ΠMΓ;俄罗斯联邦国家标准GOST R;俄罗斯联邦的其他标准化规范文件[2]。

检索俄罗斯标准途径:①进入俄罗斯联邦技术法规与计量局首页,点击“Standards Catalogue”[3],进入在线目录检索界面,可利用标准号、标准题目(关键词)和分类号等字段进行检索,以获得现行独联体跨国标准(GOST)和俄联邦国家标准(GOST R)的信息;②利用俄罗斯《国家标准目录》《技术规范目录》《作废与被代替标准目录》进行检索;③以下3种途径也可检索俄罗斯标准信息:新批准的标准信息及全文检索与浏览、标准草案最终稿信息及全文检索与浏览、2005年至今的全俄技术经济与社会信息分类(标准)。

2.2 ABNT

巴西技术标准协会(ABNT)成立于1940年,是巴西标准化的主管机构,主要业务是研究制定巴西标准(NB),开展产品质量认证及其他与标准化相关的活动,代表国家参与国际/区域标准化活动。ABNT于1947年加入国际标准化组织(ISO),也是国际电工委员会(IEC)、泛美标准委员会(COPANT)、南锥体共同市场标准化协会(AMN)的成员[4]。

巴西标准可通过以下几个途径进行检索:登录ABNT网站,或者登录ABNT的网上书店http://www.abntcatalogo.com.br/,查找相关标准信息。

2.3 SABS

南非国家标准局(South African Bureau of Standards, SABS)是根据1945年颁布的《国家标准法》设立的,是南非惟一制定和颁布标准的机构,南非的国家标准通过技术委员会(TC)来制定,SABS下属有450个TC,每年约500个新标准的速度增长[5]。南非标准大部分为自愿采用的标准,也有少部分为强制性标准,其数量约为70个,主要涉及产品包括电气和电子设备及其部件、机动车及其零部件以及食品等。除了强制性标准外,南非还有另外两种形式的技术法规:一是法律法规引用的国家标准,这类技术法规大约有300个;二是其他政府部门制定的有技术要求的法规,能够制定这类技术法规的有交通、能源、环境保护、卫生、农业、通讯、劳动、贸易与工业等10个政府部门。

南非标准检索可通过以下途径:①进入SABS网站首页。该页面提供按领域检索标准信息的功能。目前共涉及36个领域,选择领域后再点击左侧列表中的“Standards & Publications”,即可看到该领域内所有标准列表,显示信息为标准号与标准题目。②利用网上书店的标准搜索引擎。在SABS网站主页点击购物车图标进入网上书店页面,或直接输入书店网址http://www.sabs.co.za/进入页面。在其主页上的检索框中输入标准号或者关键词即可进行简单搜索,或者点击“Advanced search”进入高级检索,利用其提供的多种途径检索到需要的标准信息。③目录《STANDARDS CATALOGUE》。该目录每月更新,可免费从网站下载,进入SABS网上书店,点击主页面下端的“VIEW OUR SABS CATALOGUE ID PDF”,该目录中包含標准审定委员会批准或SABS标准发布的所有标准和相关出版物的信息,其中通知是从官方通报上获悉的新发布标准和已有标准更新的信息。

2.4 BIS

印度设立的印度标准局(BIS)成立于1986年,并于1987年4月1日正式取代印度标准学会成为印度法定的全国性标准及认证管理机构。主要任务是制定推行国家标准;实施合格评定制度;代表国家参与ISO、IEC等国际标准化活动。印度的标准体系主要由涉及标准及认证管理的法律法规、标准管理制度以及印度认证制度组成[6]。

检索印度标准信息,可登录BIS主页www.bis.org.in,点击左侧的“Buy Standards Online”栏目,在“Search for Standard”中直接输入标准号或标题进行检索,也可以点击“Advanced Search”进入高级检索界面進行检索,还可以在线购买纸版、电子版/DVD版本的标准。BIS每年制定350多条新增或修订的标准。

3 金砖国家标准信息检索平台的比较及特点

3.1 收录内容

各种标注文献检索平台收录的标准文献不同,主要表现在内容层次、语言种类、技术领域、标准种类、标准数量5个方面(见表1),英语是最常用的语言,是各类标准文献都采用的语种,其次是本国的官方语言和英语同时存在。BIS制定的印度标准涉及14个领域,每年4月1日,BIS向14个分区理事会的各个理事会,发布详细的工作计划,这14个领域为生产与一般工程、化工、土木工程、电子与信息技术、电工学、食品业和农业、管理和系统、机械工程、医疗设备和医院规划、冶金过程、石油煤炭及相关产品、纺织业、运输工程、水利资源。

3.2 检索标准编号

标准编号基本结构为标准代号+专业类号+顺序号+年代号,如表2所示。

(2)高级检索字段(见表4)

标准编号、标准名称、时间范围、标准制定委员会代码、关键词、ICS号是基本检索字段。SABS在高级检索中提供如下检索字段,如标准号、小描述、价格、出版社、批准日期、版本号、修正号、摘要、国际关系(采用标准)、重申日期、撤回数据日期、代替标准、被代替标准、与其他字段结合使用、印发单位、校对、阶段日期、ISBN、委员会、阶段码、年份、ICS、文件状态码、短名字。BIS提供如下检索字段:标题、IS号、司/分司、年份、价格范围、重申日期、修正号、是否有同等标准。ABNT提供如下字段:组织类型、标准号、部分、关键词、委员会、ICS/CIN、出版社、出版时间、状态。GOST提供的检索字段最少,如:序号、关键词、ICS号、验证码,并且在常用的检索字段提供验证码,并在search下有帮助文档。

3.5 检索功能

检索功能主要根据是否支持截词检索、精确检索和布尔逻辑检索进行划分。逻辑检索词包括与、或、非。4个国家的检索功能如表5所示。

3.6 著录方式

标准文献基本的著录信息包括标准编号、标准名称、出版日期、语种、委员会代码和标准状态等。标准编号是标准文献的唯一标识符,其格式是“标准代号+顺序号+年代号”。ICS号是指国际标准分类号,通常ICS分为40大类(一级类目),其组成分为3级:第一级由两个数字组成,第二级由三个数字组成,第三级由两个数字组成,各级之间以“.”隔开。除基本信息外,SABS提供关联标准信息、引用关系,这些信息体现了知识的流动方向,是了解技术发展过程的重要信息。日期著录不仅包括出版日期、有效日期,还包括公开日期、批准日期、撤销日期。

著录方式中,ABNT提供字段最多,如:标准号、出版日期、实施日期、英语标题、葡萄牙语标题、委员会、页数、状态、语言类型、正文、价格、范围、ICS、相关标准。SABS提供字段如:标准号、标题、版本号、修正案、摘要、印发单位、阶段码、委员会、出版社、ICS号。BIS提供字段如:标准号、出版年、重申时间(年)、标题、委员会、修正次数、状态、印度国内价格、印度国外价格。而GOST字段最少,仅有3个:标准号、英文标题、ICS号。详见表6。

3.7 检索结果排序

标准检索结果提供的排序方式,可以更加方便用户浏览和筛选相关标准文献。但是ABNT和SABS均未提供排序方式,默认依照相关度进行排序,而GOST提供的3种排序方式更符合标准信息用户的行为习惯。详见表7。

3.8 其他检索方式

标准检索文献中,提供最新和卖得较好的标准记录,可以方便用户及时了解标准的更新和发展。4个国家中,均提供在首页显示最新标准目录,提供免费电子版出版物促进对标准的了解,而只有SABS在首页显示卖得较好的标准。详见表8。

4 国内标准检索平台的启示

针对国内检索文献中不足:如注重数量忽略质量、查全率和查准率低以及更新速度慢等问题,国内标准文献检索平台可以从以下几个方面改进:(1)注重标准文献收录的时效性和连续性。(2)整合国内外不同标准文献字段,整理出用户最关心的字段。(3)注重对原文标准数据的深加工以及著录质量的审查。(4)针对不同用户习惯提供可选用户选择的不同排序方式,在标准文献首页提供最新、卖得较好等目录,增加标准服务的多样化。(5)定期针对标准出版相应期刊等出版物,促进标准的推广和实施。

信息检索课程的论文题目范文第4篇

关键词:信息检索;跨语言检索;检索模型;多语言信息资源

信息技术的发展产生了大量的数字信息,人们进入了海量信息资源和大数据时代。特别是互联网技术的快速发展,因特网上的信息资源类型和数量愈来愈丰富,所使用的语言愈来愈具有多样性。网络资源语言的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍。这种语言障碍极大地限制了人们对信息资源的有效获取,跨语言信息检索由此应运而生。跨语言信息检索由康奈尔大学的Salton于20世纪70年代初首先提出。他利用手工编制的英语—德语双语种词表,进行了跨语言信息检索的尝试;1973年,他又编制了英语—法语词表,并对跨语言信息检索的效率进行了评价。1964年,法国道路研究实验室开发了“国际道路研究文献系统”,该系统通过英、法、德三种语言索引词构成的多语言受控词表来实现跨语言信息检索。跨语言信息检索是指用户以自己熟悉的一种语言来构建和提交查询提问式,从多语言信息资源系统中检索出符合用户需求的另一种或多种语言描述的相关信息资源。例如,输入中文的提问式,从多语言信息资源系统检索出英文、法文或中文及其他语言描述的相关信息资源。用户查询提问时所使用的语言称之为源语言,而系统检索出的信息资源所包含的语言称之为目标语言。跨语言信息检索,可分为双语言信息检索和多语言信息检索。双语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外一种语言表达的文献信息,即目标语言为另一种语言。多语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外多种语言表达的文献信息,即目标语言为多种语言。相对于双语言信息检索,多语言信息检索往往更符合网络用户的查询需求。与跨语言信息检索相对应,查询提问式语言和检索出信息资源表述语言相同的信息检索称为单语言信息检索。跨语言信息检索是传统计算机信息检索技术和语言自动处理技术的有机结合,涉及语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。源语言和目标语言的统一是跨语言信息检索的关键技术,信息检索模型则是实现查询和信息资源匹配的重要理论基础。本文对此都进行了讨论,以利于图书馆员们更好地了解和掌握跨语言信息检索相关技术。

一、跨语言信息检索方法

跨语言信息检索一般可以分为如下三个过程:①多语言信息资源的搜集以及多语言信息索引的建立;②应用语言自动处理技术实现提问语言(源语言)和信息资源表述语言(目标语言)的统一;③应用单语言信息检索技术实现查询提问式与索引信息的匹配,得到检索结果。其中源语言和目标语言的统一是实现跨语言信息检索的关键技术,主要通过提问式翻译、文献翻译、中间语种转换及非翻译方法等四种方式来实现。提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言的信息集进行查询。提问式翻译主要有字典和语料库两种方法。其核心思想在于通过语料库中不同语种同一信息的对应关系对提问式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。提问式翻译是实现跨语言信息检索较为经济的方法。其缺陷在于,系统返回的信息仍然用目标语言表达,只能算一种不完全的跨语言信息检索。文献翻译是指在信息检索之前,将文献信息资源表述的目标语言转化为查询提问式的源语言。目前实现文献翻译的方法主要有机器翻译和基于字典翻译文献索引词方法。文献翻译的优点是检索结果用提问语言描述,用户能够方便地选择利用。同时,文献层次的翻译与提问层次的翻译相比,其语境更加宽泛,比较容易消除歧义。不足之处在于要求所有被检索信息改变语言表述,而现有机器翻译系统的正确率还难以达到令人满意的程度,无法达到实用水平;此外,将数据库中全部文献从目标语种翻译到提问语言工作量大,代价昂贵。中间语言转换是将提问的源语言转换成中间语言,再把中间语言转换为信息资源的目标语言,或者是把提问的源语言和信息资源的目标语言都转换为中间语言。中间语言通常是计算机容易自动处理的语言。这种方法常用于多于两个语种的跨语言信息检索或者两种语言之间不存在直接对应转换的跨语言信息检索。非翻译方法是指不对提问语种或者信息语种进行翻译而实现跨语言信息检索的方法,即潜语义索引。这种方法的实现方式是,首先将原始文档与相对应的翻译文档建立联系,构建训练文档集,然后利用奇异值分解技术对其进行分析,获得双语文档集的特征信息和检索词的映射关系,最后以平行文档中的语词检索出另一语言的相关信息。这种方法的优点是,不需要字典、词表和机器翻译系统,也不存在翻译过程中消除歧义的问题,具有很高的灵活性和适应性;不足之处在于对具体问题构造优化的向量空间模型是一种经验型的工作,且向量空间模型的奇异值分解计算需要时间,训练文档不容易获取。

二、跨语言信息检索模型

信息检索模型是信息检索中的一个重要理论问题。已有的单语言信息检索模型包括布尔模型、向量空间模型、概率模型、统计语言模型和语义处理模型等。这些信息检索模型在跨语言信息检索中有着重要的作用。布尔模型是一种基于集合论的检索模型。在该模型中,一篇文档通过称之为标引词的关键词来表示,文档语义内容中标引词的重要性用一个二值权值来表示,一个查询表示为多个标引词通过逻辑联结词连接的表达式。布尔模型结构简单、容易实现,但只能判断文档相关或不相关,无法描述与查询条件的匹配程度情况。模糊集合模型和扩展布尔模型在此方面进行了改进。在模糊集合模型中,将文档看成与查询在一定程度上相关,每一标引词都存在一个模糊的文献集合与之相关。扩展布尔模型吸取了模糊集合模型和向量空间模型的长处。在该模型中,一篇文档对应的标引词被赋予了一个0~1之间数值的权值,文档与查询的相似度通过公式来计算。布尔模型及其扩展模型在跨语言信息检索的查询翻译消歧中得到成功应用。向量空间模型是将文档和查询表示为向量的检索模型。在该模型中,标引词在一篇文档中的权值是一个0~1之间的实数。查询中的标引词也有一个正的加权值。文档向量与查询向量夹角的余弦用来计算它们之间相似度。向量空间模型能根据相似度对检索结果进行排序,有效地提高了检索效率。其不足之处在于标引词被假定为相互独立,这样会丢掉大量的文本结构信息,且相似度计算量大。为此,人们对向量空间模型进行了改进,提出了广义向量空间模型。广义向量空间模型已应用于跨语言信息检索,其基本思想在于根据双语言训练文档集分别建立源语言与目标语言的检索词——文档关联矩阵。在源语言与目标语言之间建立映射关系,在不需要翻译的条件下实现跨语言信息检索。概率模型是基于概率和随机过程理论的检索模型。在该模型中,一个用户查询对应一个由相关文档构成的集合,称之为理想集合。如果知道理想集合的特征,就可以找到所有的相关文档,剔除所有的无关文档。概率模型具有严格的数学理论基础,采用相关反馈原理克服了不确定性推理的缺点。但其参数估计难度较大,缺乏理论知识。于是人们将统计学引入到概率模型中,形成了各种基于贝叶斯网络的检索模型。推理网络模型是概率模型的一种扩展形式,它模拟人脑的推理思维模式,将文档与用户查询匹配的过程转化为一个从文档到查询的推理过程。跨语言信息检索系统InQuery是基于贝叶斯推理网络模型的信息检索系统,InQuery允许使用查询算符,这在跨语言信息检索中是非常有用的。统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率,也可以将统计语言模型看作是生成某种语言文本的统计模型。根据马尔可夫链的阶数,统计语言模型分为一元语言模型和多元语言模型。一元语言模型假设词与词之间是相互独立的,一个词出现的概率与这个词前面的词没有必然联系。多元语言模型假设词与词之间是相互关联的,一个词出现的概率与这个词前面的词存在一定的关联。根据目标词前面其他词个数的多少,多元语言模型可被划分为二元语言模型、三元语言模型等。统计语言模型检索方法能够利用统计语言模型来估计与检索有关的参数,在如何改善检索系统性能方面有更加明确的指导方向。但该方法隐含着词汇相互独立关系,没有考虑词汇间的相互影响。统计语言模型已经应用于跨语言信息检索,并在解决查询翻译的语言歧义性中发挥重要作用。概率模型和统计语言模型可以看作在同一概率框架下不同的推导结果,然而统计语言模型却克服了传统概率模型在概率估计上的不足。如果不进行查询扩展,概率模型的效果要稍好于统计语言模型。如果进行查询扩展,那么统计语言模型进行跨语言信息检索的效率更高。语义处理模型能够探究词语背后所指代的本质概念,明确词语的主题范畴,识别同一概念的各种表示形式。在该模型中,词语的含义、词语和文档之间的语义关联、文档的相似度分析,采取了从文档结构入手的潜在语义分析方法,以及从内容入手的利用知识组织体系的本体方法。潜语义标引模型将标引词之间、文档之间的相关关系以及标引词与文档之间的语义关联都考虑在内,将文档向量和查询向量映射到与语义概念相关联的较低维度空间中,从而将标引词向量空间转化为语义概念空间,并在降维后的语义概念空间中,计算文档向量和查询向量的相似度。潜语义标引模型克服了同义词和多义词对检索结果的影响。本体模型将用户的信息需求通过共享本体转化为计算机可理解的查询表达。为了提高查全率,再通过共享本体中概念与概念之间的关系扩展查询表达。在跨语言信息检索中,潜语义标引模型将有代表性的文档与其对应的翻译文档联系起来形成训练文档集,利用奇异值分解技术对双语检索词——文档关联矩阵进行奇异值分解,获得双语文档集的特征信息以及检索词用法上的映射关系,最后根据平行文档中语词的用法特征检索出另一种语言的相关信息。基于本体的跨语言信息检索比常规的单一语言信息检索在查全率和查准率方面有明显的优势。

传统的信息检索技术,往往只能帮助用户使用自己熟知的一种语言提出查询。互联网技术与数字图书馆技术的发展产生了大量的多语言信息资源。这样,不同的用户可能会使用不同的语言提出查询,同一个用户也可能采用同一种语言来查询不同语言表述的信息资源。由此,表述信息资源的语言的多样性以及用户使用语言的差异性,带来了信息检索的语言障碍。跨语言信息检索是为满足此要求应运而生的新方法和技术。数字图书馆以及网络信息资源服务是图书馆业务拓展的新平台,跨语言信息检索是这些资源服务中必须采用的技术手段,了解和掌握跨语言信息检索相关技术对于图书馆员有着重要的意义。

参考文献:

[1]Witten Ian H.et.al.Greenstone:Open-Source digital Library Software[J].D-Lib Magazine,2001,7(10):288-298.

[2]Wiederhold Gio.Digital Libraries:Value and Productivity[J]. Communication of the ACM,1995,38(4):85-96.

[3]Douglas W Oard,Anne R Diekema. Cross-language Information Retrieval[J]. Annual Review of Information Science and Technology,1998,(6):223-256.

[4]骆卫华.跨语言信息检索方法概述[J].数字图书馆论坛,2006,(9):1-7.

[5]Kazuaki Kishida. Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005,(41):433-455.

[6]吴丹,齐和庆.信息检索模型及其在跨语言信息检索中的应用进展[J].现代情报,2009,29(7):215-221.

信息检索课程的论文题目范文第5篇

关键词:信息检索;跨语言检索;检索模型;多语言信息资源

信息技术的发展产生了大量的数字信息,人们进入了海量信息资源和大数据时代。特别是互联网技术的快速发展,因特网上的信息资源类型和数量愈来愈丰富,所使用的语言愈来愈具有多样性。网络资源语言的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍。这种语言障碍极大地限制了人们对信息资源的有效获取,跨语言信息检索由此应运而生。跨语言信息检索由康奈尔大学的Salton于20世纪70年代初首先提出。他利用手工编制的英语—德语双语种词表,进行了跨语言信息检索的尝试;1973年,他又编制了英语—法语词表,并对跨语言信息检索的效率进行了评价。1964年,法国道路研究实验室开发了“国际道路研究文献系统”,该系统通过英、法、德三种语言索引词构成的多语言受控词表来实现跨语言信息检索。跨语言信息检索是指用户以自己熟悉的一种语言来构建和提交查询提问式,从多语言信息资源系统中检索出符合用户需求的另一种或多种语言描述的相关信息资源。例如,输入中文的提问式,从多语言信息资源系统检索出英文、法文或中文及其他语言描述的相关信息资源。用户查询提问时所使用的语言称之为源语言,而系统检索出的信息资源所包含的语言称之为目标语言。跨语言信息检索,可分为双语言信息检索和多语言信息检索。双语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外一种语言表达的文献信息,即目标语言为另一种语言。多语言信息检索是指用户以自己熟悉的语言提交查询请求,除源语言之外,系统可检索到另外多种语言表达的文献信息,即目标语言为多种语言。相对于双语言信息检索,多语言信息检索往往更符合网络用户的查询需求。与跨语言信息检索相对应,查询提问式语言和检索出信息资源表述语言相同的信息检索称为单语言信息检索。跨语言信息检索是传统计算机信息检索技术和语言自动处理技术的有机结合,涉及语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。源语言和目标语言的统一是跨语言信息检索的关键技术,信息检索模型则是实现查询和信息资源匹配的重要理论基础。本文对此都进行了讨论,以利于图书馆员们更好地了解和掌握跨语言信息检索相关技术。

一、跨语言信息检索方法

跨语言信息检索一般可以分为如下三个过程:①多语言信息资源的搜集以及多语言信息索引的建立;②应用语言自动处理技术实现提问语言(源语言)和信息资源表述语言(目标语言)的统一;③应用单语言信息检索技术实现查询提问式与索引信息的匹配,得到检索结果。其中源语言和目标语言的统一是实现跨语言信息检索的关键技术,主要通过提问式翻译、文献翻译、中间语种转换及非翻译方法等四种方式来实现。提问式翻译是指将用户提交的查询请求翻译成系统支持的多种语言,然后对不同语言的信息集进行查询。提问式翻译主要有字典和语料库两种方法。其核心思想在于通过语料库中不同语种同一信息的对应关系对提问式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。提问式翻译是实现跨语言信息检索较为经济的方法。其缺陷在于,系统返回的信息仍然用目标语言表达,只能算一种不完全的跨语言信息检索。文献翻译是指在信息检索之前,将文献信息资源表述的目标语言转化为查询提问式的源语言。目前实现文献翻译的方法主要有机器翻译和基于字典翻译文献索引词方法。文献翻译的优点是检索结果用提问语言描述,用户能够方便地选择利用。同时,文献层次的翻译与提问层次的翻译相比,其语境更加宽泛,比较容易消除歧义。不足之处在于要求所有被检索信息改变语言表述,而现有机器翻译系统的正确率还难以达到令人满意的程度,无法达到实用水平;此外,将数据库中全部文献从目标语种翻译到提问语言工作量大,代价昂贵。中间语言转换是将提问的源语言转换成中间语言,再把中间语言转换为信息资源的目标语言,或者是把提问的源语言和信息资源的目标语言都转换为中间语言。中间语言通常是计算机容易自动处理的语言。这种方法常用于多于两个语种的跨语言信息检索或者两种语言之间不存在直接对应转换的跨语言信息检索。非翻译方法是指不对提问语种或者信息语种进行翻译而实现跨语言信息检索的方法,即潜语义索引。这种方法的实现方式是,首先将原始文档与相对应的翻译文档建立联系,构建训练文档集,然后利用奇异值分解技术对其进行分析,获得双语文档集的特征信息和检索词的映射关系,最后以平行文档中的语词检索出另一语言的相关信息。这种方法的优点是,不需要字典、词表和机器翻译系统,也不存在翻译过程中消除歧义的问题,具有很高的灵活性和适应性;不足之处在于对具体问题构造优化的向量空间模型是一种经验型的工作,且向量空间模型的奇异值分解计算需要时间,训练文档不容易获取。

二、跨语言信息检索模型

信息检索模型是信息检索中的一个重要理论问题。已有的单语言信息检索模型包括布尔模型、向量空间模型、概率模型、统计语言模型和语义处理模型等。这些信息检索模型在跨语言信息检索中有着重要的作用。布尔模型是一种基于集合论的检索模型。在该模型中,一篇文档通过称之为标引词的关键词来表示,文档语义内容中标引词的重要性用一个二值权值来表示,一个查询表示为多个标引词通过逻辑联结词连接的表达式。布尔模型结构简单、容易实现,但只能判断文档相关或不相关,无法描述与查询条件的匹配程度情况。模糊集合模型和扩展布尔模型在此方面进行了改进。在模糊集合模型中,将文档看成与查询在一定程度上相关,每一标引词都存在一个模糊的文献集合与之相关。扩展布尔模型吸取了模糊集合模型和向量空间模型的长处。在该模型中,一篇文档对应的标引词被赋予了一个0~1之间数值的权值,文档与查询的相似度通过公式来计算。布尔模型及其扩展模型在跨语言信息检索的查询翻译消歧中得到成功应用。向量空间模型是将文档和查询表示为向量的检索模型。在该模型中,标引词在一篇文档中的权值是一个0~1之间的实数。查询中的标引词也有一个正的加权值。文档向量与查询向量夹角的余弦用来计算它们之间相似度。向量空间模型能根据相似度对检索结果进行排序,有效地提高了检索效率。其不足之处在于标引词被假定为相互独立,这样会丢掉大量的文本结构信息,且相似度计算量大。为此,人们对向量空间模型进行了改进,提出了广义向量空间模型。广义向量空间模型已应用于跨语言信息检索,其基本思想在于根据双语言训练文档集分别建立源语言与目标语言的检索词——文档关联矩阵。在源语言与目标语言之间建立映射关系,在不需要翻译的条件下实现跨语言信息检索。概率模型是基于概率和随机过程理论的检索模型。在该模型中,一个用户查询对应一个由相关文档构成的集合,称之为理想集合。如果知道理想集合的特征,就可以找到所有的相关文档,剔除所有的无关文档。概率模型具有严格的数学理论基础,采用相关反馈原理克服了不确定性推理的缺点。但其参数估计难度较大,缺乏理论知识。于是人们将统计学引入到概率模型中,形成了各种基于贝叶斯网络的检索模型。推理网络模型是概率模型的一种扩展形式,它模拟人脑的推理思维模式,将文档与用户查询匹配的过程转化为一个从文档到查询的推理过程。跨语言信息检索系统InQuery是基于贝叶斯推理网络模型的信息检索系统,InQuery允许使用查询算符,这在跨语言信息检索中是非常有用的。统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率,也可以将统计语言模型看作是生成某种语言文本的统计模型。根据马尔可夫链的阶数,统计语言模型分为一元语言模型和多元语言模型。一元语言模型假设词与词之间是相互独立的,一个词出现的概率与这个词前面的词没有必然联系。多元语言模型假设词与词之间是相互关联的,一个词出现的概率与这个词前面的词存在一定的关联。根据目标词前面其他词个数的多少,多元语言模型可被划分为二元语言模型、三元语言模型等。统计语言模型检索方法能够利用统计语言模型来估计与检索有关的参数,在如何改善检索系统性能方面有更加明确的指导方向。但该方法隐含着词汇相互独立关系,没有考虑词汇间的相互影响。统计语言模型已经应用于跨语言信息检索,并在解决查询翻译的语言歧义性中发挥重要作用。概率模型和统计语言模型可以看作在同一概率框架下不同的推导结果,然而统计语言模型却克服了传统概率模型在概率估计上的不足。如果不进行查询扩展,概率模型的效果要稍好于统计语言模型。如果进行查询扩展,那么统计语言模型进行跨语言信息检索的效率更高。语义处理模型能够探究词语背后所指代的本质概念,明确词语的主题范畴,识别同一概念的各种表示形式。在该模型中,词语的含义、词语和文档之间的语义关联、文档的相似度分析,采取了从文档结构入手的潜在语义分析方法,以及从内容入手的利用知识组织体系的本体方法。潜语义标引模型将标引词之间、文档之间的相关关系以及标引词与文档之间的语义关联都考虑在内,将文档向量和查询向量映射到与语义概念相关联的较低维度空间中,从而将标引词向量空间转化为语义概念空间,并在降维后的语义概念空间中,计算文档向量和查询向量的相似度。潜语义标引模型克服了同义词和多义词对检索结果的影响。本体模型将用户的信息需求通过共享本体转化为计算机可理解的查询表达。为了提高查全率,再通过共享本体中概念与概念之间的关系扩展查询表达。在跨语言信息检索中,潜语义标引模型将有代表性的文档与其对应的翻译文档联系起来形成训练文档集,利用奇异值分解技术对双语检索词——文档关联矩阵进行奇异值分解,获得双语文档集的特征信息以及检索词用法上的映射关系,最后根据平行文档中语词的用法特征检索出另一种语言的相关信息。基于本体的跨语言信息检索比常规的单一语言信息检索在查全率和查准率方面有明显的优势。

传统的信息检索技术,往往只能帮助用户使用自己熟知的一种语言提出查询。互联网技术与数字图书馆技术的发展产生了大量的多语言信息资源。这样,不同的用户可能会使用不同的语言提出查询,同一个用户也可能采用同一种语言来查询不同语言表述的信息资源。由此,表述信息资源的语言的多样性以及用户使用语言的差异性,带来了信息检索的语言障碍。跨语言信息检索是为满足此要求应运而生的新方法和技术。数字图书馆以及网络信息资源服务是图书馆业务拓展的新平台,跨语言信息检索是这些资源服务中必须采用的技术手段,了解和掌握跨语言信息检索相关技术对于图书馆员有着重要的意义。

参考文献:

[1]Witten Ian H.et.al.Greenstone:Open-Source digital Library Software[J].D-Lib Magazine,2001,7(10):288-298.

[2]Wiederhold Gio.Digital Libraries:Value and Productivity[J]. Communication of the ACM,1995,38(4):85-96.

[3]Douglas W Oard,Anne R Diekema. Cross-language Information Retrieval[J]. Annual Review of Information Science and Technology,1998,(6):223-256.

[4]骆卫华.跨语言信息检索方法概述[J].数字图书馆论坛,2006,(9):1-7.

[5]Kazuaki Kishida. Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005,(41):433-455.

[6]吴丹,齐和庆.信息检索模型及其在跨语言信息检索中的应用进展[J].现代情报,2009,29(7):215-221.

信息检索课程的论文题目范文第6篇

2、国内信息检索服务研究综述与对策分析

3、发挥党校图书馆优势,服务新型智库建设

4、利用CNKI检索平台提高科研效率的策略

5、我国虚拟仿真实验教学的发展与趋势研究

6、关于博物馆馆藏对外开放之研究综述

7、四川彝族传统乐器马布的“乐器学”与“非遗”文化语境研究

8、体育微博客发展现状和趋势刍议

9、基于成果导向的财务管理学课程规范体系构建

10、广西科技期刊与科技智库互动发展路径

11、媒体报道中十四运志愿者媒介形象建构策略

12、小学生实用书写教育优化策略的实验研究

13、我国体育发展短板研究的时空分布特点、热点及历史演化分析

14、“教资国考”背景下体教专业学生参与教资考试现状与对策

15、“历史化”:“重返八十年代”学术思潮的“关键词”

16、我国体育小镇研究现状及前沿探究

17、转型期体育院校图书馆的改革发展路径研究

18、需求为本视角下儿童休闲体育项目的开发与营销

19、习近平文化思想研究进展的大数据分析及深化研究的路径思考

20、信息技术在小学语文教学中的应用研究及展望

21、建设幸福高校微教学探析

22、浅谈朝鲜族小学民族文化建设现状及问题文献综述

23、领域本体的作用及构建实例

24、试论智媒体的边界区分

25、高职院校高质量课堂教学的内涵、特征及构建条件

26、基于Citespace的国内旅游供应链研究分析

27、我国大学生就业质量研究综述

28、立定三级跳远研究进展与前瞻

29、中国知网与百度学术检索功能比较

30、近百年来不同范式下梁启超与北洋外交思想研究综述

31、新时代背景下家长对幼儿劳动教育价值认同文献研究综述

32、英汉对比研究中“形合意合”研究述评

33、我国2000年来职业教育社会学研究现状分析

34、基于知识图谱的我国中学田径研究热点可视化分析

35、我国三大网络图书馆的文章检索

36、科技查新视角下三大中文数据库的比较研究

37、亚文化视域下的“狗粉丝”群体探析

38、高校图书馆引入创客空间的内在逻辑性

39、高校成教大学生心理健康若干问题探析

40、知网被查凸显文献数据库行业困境

41、地方高校学报出版中视频应用策略探讨

42、中国知网居前1‰高被引论文的学科阈值

43、教师投稿须做哪些功课

44、基于内容分析法的近十年(2005—2014)国内跨文化教育研究综述

45、当代中国廉政建设:现状、理论分析与指标体系构建

46、近年来高职学生学习倦怠研究现状

47、基于CNKI分析的我国本草考证研究进展

48、幸福事件量化视野下的大学生党员教育

49、基于语料库浅析《红字》中珠儿形象及其女性主义意识

上一篇:意趣论文题目范文下一篇:应用心理学毕业生论文题目范文