概念语义范文

2024-05-26

概念语义范文(精选9篇)

概念语义 第1篇

1 语义相似度

语义相似度是对语义相似性的定量表示,语义相似度计算是信息检索、数据挖掘、知识管理等领域的基本问题。在信息检索中,语义相似度能够更多的反映文本概念是否符合用户的查询要求,相似度越高,说明文本内容与用户的查询请求越接近。

刘群、李素建[1]基于实例的机器翻译,提出语义相似度就是两个不同上下文本中的本体概念,在不改变文本的句法及语义结构的情况下可以互相替换的程度。如果位于不同上下文本中的两个概念词语在不改变文本的句法及语义结构的情况下可以互相替换的可能性越大,则说明二者的相似度就越高,否则相似度就越低。

当两个语义概念元素x,y相似时,用sim(x,y)表示两者之间的相似度,形式上,相似度计算满足[2]:

1)相似度的值为[0,1]区间中的一个实数,即sim(x,y)∈[0,1];

2)如果两个对象是完全相似的,则相似度为1,即sim(x,y)=1当且仅当x=y;

3)如果两个对象没有任何共同特征,那么相似度为0,即sim(x,y)=0;

4)相似关系是对称的,即sim(x,y)=sim(y,x)。

2 概念语义树

使用层次化的树状结构来描述概念之间的逻辑关系,这种语义化的概念树为检索算法提供语义基础,在检索过程中不同的概念之间也有一定的相似性和相关性,因此需要处理概念树中祖孙节点、兄弟节点等不同类型的关系,我们考虑用概念间的相似度对其进行描述和量化,以提高检索的准确率为了计算概念相似度,作如下定义[3,4]:

定义1:在本体概念的树状层次结构中,如果概念A和概念B之间存在这样的关系:A是B的祖先,则称A和B为同支概念。概念A称为A和B的最近根概念,记为R(A,B),而A、B之间的距离dist(A,B)=dep(B)-dep(A),其中depth(C)为概念C在层次结构中的深度。如图1(a)所示。

定义2:在本体概念的树状层次结构中,如果概念A和概念B之间存在如下这样的关系:A不是B的祖先并且B也不是A的祖先,则称A和B为异支概念。如果概念R是A和B最近的共同祖先,并且是符合此条件的所有节点中距离概念树的根节点最远的一个,则称R为A和B的最近根概念,记为R(A,B),且A、B之间的距离为dist(A,B)=dist(B,R)+dist(A,R),如图1(b)所示。

定义3:概念C称为概念A和B的语义相关概念,当且仅当概念C满足如下的条件:当A,B为同支概念时,C在以A为根的子树中且不在以B为根的子树中;当A,B为异支概念时,C在以R为根的子树中且不在以A或B为根的子树中。

在计算语义相似度时,A和B各自的子概念数以及它们的语义相关概念数对相似度计算结果也有影响,当A,B为同支概念时,A的子概念由B的子概念和A,B的语义相关概念组成,前者所占的比重越大,则概念A,B的语义相似度越大;当A,B为异支概念时,R的子概念由A的子概念、B的子概念以及A,B的语义相关概念三部分组成,前两部分的比重越大,则A,B的语义相似度越大。

1)当A,B为同支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数。

2)当A,B为异支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数,X表示A与B最近根概念的子概念数。

定义4:两个概念之间的语义距离,是指在语义树中连接这两个概念的最短路径的长度。语言学研究认为,两个概念的语义距离越大,其相似度越低;反之,两个概念的语义距离越小,其相似度越大,两者之间可以建立一种简单的对应关系。特别地当两个概念之间语义距离为0时,其相似度为1;当两个概念之间的语义距离为无穷大时,其相似度为0。两个概念之间的语义距离表达式为:

式中,distant(A,B)表示概念A与B之间的语义距离,weighti表示连接A,B的最短路径上第i条边的权值。

定义5:概念的深度是指该概念与语义树根的最短路径中所包括的边数。因为在语义树中,每一层的概念都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个概念的深度和越大,概念之间的相似度越大;两个节概念的深度差越小;概念之间的相似度越大。概念深度的表达式为:

式中,depth(A)表示概念A的深度,n表示概念A与语义树根之间的最短路径中所包括的边数。

3 语义相似度计算方法

考虑概念语义树中概念之间的层次关系、继承关系及语义关系,我们提出下面这个关于语义相似度的就算方法:

其中:Level(A,B)表示概念之间的语义关系对相似度的影响;

Distant(A,B)表示概念之间的语义距离对相似度的影响;

Depth(A,B)表示概念之间的深度对相似度的影响。

但对概念语义树中层次结构分以下这两种情况考虑:

1)当A,B为同支概念时,A与B的语义相似度为:

2)当A,B为异支概念时,A与B的语义相似度为:

α,β,γ为调节因子,且α+β+γ=1.

4 实验结果

选取如图2一个简单的实例来计算语义相似度。

选参数α=0.6,β=0.3,γ=0.1,可得到“计算机”与其余各节点之间的语义相似度为:

参考文献

[1]刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76.

[2]李玲.面向流程诊断的企业知识相似度匹配工具研究与开发[D].哈尔滨:哈尔滨工业大学,2006.

[3]王进,陈恩红,施德明,等.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006(6):2-6.

概念语义 第2篇

关键词:政治理论

摘要:该文以Lakoff和Johnson提出的概念隐喻理论为依据,从概念隐喻的三个方面——空间隐喻、本体隐喻和结构隐喻,对政治话语中的词汇进行语义建构,发现概念隐喻对政治话语中的普通词汇具有极大的解释力,并且能够揭示隐藏在词汇背后的文化特色和政治观念,从而可以证明概念隐喻对政治话语中的词汇具有极其普遍的建构作用。

关键词:政治话语;隐喻;概念隐喻;语义建构

中图分类号:H030 文献标识码:A 文章编号:1009-3044(2015)23-0239-02

传统隐喻学理论仅将隐喻看作一种修辞手段,并不认为隐喻是一种能够部分地建构我们的日常概念和反映我们的本义语言的有效工具。直到1936年理查德兹在其完成的《修辞哲学》一书中首次提出隐喻实质是“互动”的观点,在他看来语言实质上是隐喻的,这种隐喻无处不在,是人类思想的产物,所以人类对于世界的感受具有隐喻性质[1]239。理查德兹在隐喻和认知的联系上所做出的贡献为后来的学者们提供了宝贵的经验。尤其以莱考夫和约翰逊合著的《我们赖以生存的隐喻》的出版,把语言就是隐喻的认识提高到了新的高度,使隐喻研究从此摆脱以文学和修辞学为本的传统隐喻理论的束缚[1]71。莱考夫提出概念隐喻理论,并首次将概念隐喻作为一种分析工具,对美国当代政治中有关战争、恐怖主义和外交辞令中所涉及的隐喻现象做出解释,来帮助人们理解隐藏在政治语篇背后的意识形态和价值观念。同理,该文试图解释概念隐喻理论是如何在政治话语中对普通词汇进行语义建构的,从而揭示普通词汇在政治话语中所承载的特殊意识形态和文化内涵。

1概念隐喻和政治话语

1.1概念隐喻理论及其认知机制

隐喻(Metaphor)一词源于希腊语“metapherein”,“meta”意为“从一边到另一边”,“pherein”的意思是“传达、传递”,二者合一意指用一个事物的某些特征认识另一事物的语言过程。隐喻不是语言的表面现象而是深层的认知机制,它之所以具有强大的生命力是因为隐喻可以使人们从不同的角度认识世界,对不同的事物建立种种不同的联系,做出千变万化的解释[1]70。所以不难看出,隐喻普遍存在于我们的生活中,体现于我们的思想和行动上,是我们“赖以生存”的手段,只有了解隐喻的认知机制,我们才能抓住事物的本质。正如,从“AisB”这种隐喻形式得来的“Argumentiswar”“Theoriesarebuildings”来看,单纯地按照语言的本义分析,争论与战争、理论与建筑都是毫无相似而言的。若非要按照本义语言来解释词汇意义,而不去探索主体和喻源之间是否存在更深层次的概念重合,其结果只能是断章取义,不得要领。以“AisB”这种类型的隐喻模式来探讨概念隐喻的运作机制,我们可以将A部分看作目标域(targetdomain),B部分看作始源域(sourcedomain)。一般来说,始源域是人们所熟知的、有形的具体概念,而目标域则是较为抽象的概念[3]。由始源域向目标域的映射过程如图1所示。在A1(Life)isB1(Journey)这组隐喻中,我们不难看出这种映射具有单向性,必须由“旅程”这个概念结构来构建和理解“人生”的概念结构,反之则不成立。正是由于人类对“旅程”有所经历和感受,才能选择“旅程”这个概念结构中部分凸显的特征映射到“人生”上,而非将始源域中所有概念全部映像到目标域中,否则谈论概念隐喻是没有意义的。由此可见,始源域向目标域的映射过程还具有互动性。目标域的特征会决定始源域的哪些特征会被映射出来[5]464。同理,在A2(Argument)isB2(War)这组隐喻中,只是凸显“争论”如同“战争”一样激烈这层含义时,我们就不需要关注“战争”的其他方面,特别是和隐喻不一致的地方,即不需要过于关注两个事物的每一个方面的对应,否则我们很难从两个事物的某些特征形成概念隐喻[1]76。

1.2政治话语界定

莱考夫[6]认为,“政治就是语言,语言亦是政治”。虽然莱考夫道出了政治和语言之间有着密不可分的联系,但他未曾对政治话语进性界定。马敏[2]认为,“政治语言是政治神话或者政治意识形态的建构材料,是在特定政治情境中所运用的语言”。而孙玉华、彭文钊、刘宏[4]则认为,“语言是政治活动的要素及政治交际的媒介,既介入政治交际中,影响政治交际进程,又是形成思维方式、价值判断、世界观的决定方式。”因此政治话语被界定为“各种形式、各种语境下的辩论、发言、演讲、会谈、访谈、访问、谈判、标语、口号等政治话语,书面化之后即成为政治文本。”那么,对于政治话语深层含义的解释就不得不涉及政治语言的语义层面了。接下来该文以政治话语本文为基础,找出其中蕴含的隐喻表达式,对其中承载着概念隐喻功能的普通词汇进行语义构建。

1.3概念隐喻与政治话语的联系

语义万维网的概念、方法及应用 第3篇

摘要:近两年来,语义万维网(semantic web)的研究逐渐引起了知识表示、逻辑编程、信息系统集成、web开发等各个领域的广泛关注。语义万维网的研究将对传统web上信息的发布、存储和处理方式产生一场变革,但是语义万维网的概念、思想、和方法还处于形成阶段。本文分析了语义万维网的起源、概念、技术框架、总结了语义万维网及相关工具的现状,并讨论了语义万维网技术在智能信息检索、企业间数据交换、知识管理以及万维网服务中的应用。

关键词:语义万维网 资源描述框架 知识表示 本体

0 引言

万维网创始人Tim Berners-Lee将万维网的演化分为两个阶段,在第一个阶段,万维网应该是一个有利于人们相互合作的强大工具。万维网最初十年的发展基本上实现了这个目标:它以HTML页面的方式向人提供了大量的信息。在第二个阶段,这种合作应该延伸到机器。也就是说,连接到万维网上的机器也应该能够分析万维网上的所有数据——包括内容、链接以及人与机器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。实现这一目标的难点在于传统的HTML语言本身的固有缺陷,这种标记语言的标签集只是对内容的显示格式做了标记,数据的表现格式和数据糅合在一起,缺乏针对数据内容的标签。HTML语言的这种特点决定了万维网上的信息内容很难被机器所理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。Web上海量的数据要求以一种能够理解数据语义的方式进行交换和管理,当前基于HTML的web技术却很难满足要求。

1 语义万维网的概念

什么是语义万维网并没有一个严格的定义,Tim.Berners-Lee对语义万维网做了如下的描述:语义万维网并不是一个孤立的万维网,而是对当前万维网的扩展,语义万维网上的信息具有定义良好的含义,使得计算机之间以及人类能够更好的彼此合作。

2 语义万维网的组成

2.1 URIs和Unicode Web环境下的应用之间不可避免地需要相互通信,直接或间接地以机器可读的格式传递发布信息。这些信息中很大一部分是对Web上资源的描述,因此,首先应该以明确的方式来标识这些资源(对象)。语义万维网采用统一资源标识符(Uniform Resource Identifiers,URI)来标识资源及其属性,URI是一个Internet标准,记载于RFC2396。这一层是整个语义万维网的基石,它成功地解决了万维网上资源的定位和跨地区字符编码的标准格式的问题。

2.2 XML、NameSpace、XML Schema 在URI和Unicode之上,是XML及相关技术层。XML允许用户根据需要自定义一些“有意义的”标签对发布的内容进行标记,并使用文档类型定义(Document Type Definition,DTD)或XMLSchema来约束这些标签的结构。

2.3 RDF、RDF Schema XML层的上一层是数据互操作层——资源描述框架(Resource Description Framework,RDF)和RDF schemas。RDF本身并没有规定语义,但是它为每一个资源描述体系提供一个能够描述其特定需求的语义结构的能力。RDF Schema机制提供了RDF模型中使用的一个基本类型系统。

2.4 Ontology 在某种意义上说,RDF Schema本身就是一种简单的本体(ontology)语言。但是RDF/RDFS对特定应用领域的词汇的描述能力比较弱,需要进行扩展,我们把这个RDF/RDFS之上的扩展层称为ontology层。T.R.Gruber等人对ontology给出的定义比较适用于语义万维网的研究:ontology是一种明确的共享概念化的形式说明。概念化是指对现实世界中的一些事物进行抽象建模,所建立的模型确定了该事物的一些相关的概念。明确意味着所使用概念的类型以及它们使用上的约束都有显式的定义。形式说明则是指ontology应该是机器可以理解的。共享反映了这样的一种理念:ontology表达双方都认可的知识,也就是说,ontology并不会仅仅局限于某些个体,而应该被一个群体所接受。

2.5 Logic、Proof&Trust 到目前为止,利用RDF/RDFS以及对RDFS进行扩展的一些ontology语言可以对Web上的资源内容做出描述。仅有这些描述还远远不够,基于语义的web应用还需要根据特定的规则从这些描述性的知识中进行推理。逻辑层的目标就是提供一种方法来描述规则。描述逻辑标记语言(Description Logic Markup Language,DLML)就是这样的一种方法,它用DTD封装了描述逻辑中的逻辑连接词,可将基于描述逻辑的形式化知识嵌入到被描述的文档之中。Proof和Trust这部分内容在概念上目前还没有一个成熟的说法。但是语义万维网的研究者普遍认为Proof和Trust将是下一代Web的重要概念。在XML、RDFRDFS、Ontology以及Logic层和Proof层之上,我们就可以建立一些可以信任的应用了。

3 语义万维网开发的工具

语义万维网能否取得成功的关键因素在于是否有充足的工具来帮助开发人员建立体现其价值的应用。下面仅介绍一些RDF API的讨论和开发状况,目前实现的RDF API主要有GINF、Redland、Jena、Mozila等。通用互操作框架,GINF,使用RDF作为协议、语言、数据和接口的通用表示。它使用的RDF接口不仅可以创建和操作RDF模型,而且还可以通过一个类似SQL的查询界面来访问这些模型。Redland是支持高层面向对象的RDF接口库。Redland用它自己的类实现了每一个RDF概念。Redland的模块化,面向对象的本质使得终端的用户能够插入各种不同的解析器和合适的存储机制。Redland提供了C语言的接口。Jena,是由惠普公司开发的Java RDF API。它同时支持以声明和资源为中心的RDF模型的操作。并且在Jena所提供的工具箱中还提供了对DAML ontology的支持,但是目前只能对ontology进行一些简单的推理。Mozilla作为开放源代码Web浏览器的一部分而开发的Mozilla API,提供了用SWI-Prolog实现的RDF解析器。

4 语义万维网的应用

随着语义万维网概念的提出和相关研究的进展,将出现许多基于语义万维网技术的应用,面对海量信息,智能信息检索的重要方法之一就是整理和重新规范万维网上信息。如今万维网上保留有高速发展期间产生的大量普通HTML页面,整理这些信息的实质性问题就是如何从HTML页面中提取出语义信息,构建出能够描述这些页面的Ontology。可行的办法是采用ontology学习系统,实现ontology的自动或半自动提取。

5 结语

目前美国DAML(Tim.Berners-Lee领导)IEEE Standard Upper Ontology Study Group和欧洲的OntoWeb(Dieter Fensel领导)在语义万维网研究领域处于领先地位并推出了一系列的语言、方法和工具。国内在这方面的研究有成果的还未见报道,很多计算机工作者对语义万维网的概念比较陌生,积极开展这方面的研究,提高万维网数据的管理和智能化处理水平已经是迫在眉睫的任务。面临这些挑战,需要协同知识表示、逻辑推理以及万维网标准化团体、领域专家共同努力,共同创建万维网的美好未来。

参考文献:

[1](英)Tim Berners-Lee,Mark Fischetti,张宇宏,萧风译.编织万维网——万维网之父谈万维网的原初设计与最终命运.上海:上海译文出版社.1999.154~171.IEEE Intelligent Systems,2001.16(2):46~54.

[2]王继成,萧嵘.web信息检索研究进展.计算机研究与发展.2001.38(2):187~193.

[3]Tim Berners-Lee.The semantic toolbox:building semantics on top of XML-RDF.org/DesignIssues/Toolbox.html.

[4](美)Andrews S Tanenbaum.熊桂喜,王小虎译.计算机网络.北京:清华大学出版社.1999.474~480.

语义信息集成中概念匹配的研究 第4篇

信息集成是目前屏蔽数据之间的半结构性、异构性和分布性的主要方法,其目的是最大限度地为用户提供统一门户,使其获取最大范围的精确数据使用。异构性(即冲突):是指信息集成中多个数据源中的不相似内容的多少,即不相似程度。异构性类似人与人之间的不同,发生在不同的部分,本文针对相似内容的不同将其划分为如下三个层次:

(1) 平台异构性 各个异构数据库系统驻留在不同的硬件平台之上,使用不同的操作系统,用不同的通信协议进行通信。

(2) 数据库系统异构性 可以是同为关系型数据库系统的Oracle,SQL server等,也可以是不同数据模型的数据库,如关系、层次、网络、面向对象、函数型数据库共同组成一个异构数据库系统。

(3) 语义异构性 不同的成员数据库系统中相同或相关数据在含义、解释和用途方面不同。由于不同的局部数据库是独立设计和开发的,在参加集成的局部数据库之间可能会产生各种语义冲突,包括模式冲突和数据冲突。

每一个信息系统都有适合自身环境与工作效率的领域模型,因而系统间存在各种异性。如何克服系统间的异构性,特别是语义异构,是解决信息集成中的主要问题。在信息集成过程中必须提供一种通用的模型解决语义异构问题,这个模型必须具备有移植性、与平台无关、能够有效解决信息之间的语义不同。本体是概念模型中可以明确且形式化地规范说明各项内容,能够有效地表达特定领域内的通用知识,可作为信息集成中的通用语义模型。本文采用本体来描述全局数据概念,树型结构描述局部数据概念,利用相似度计算匹配值来实现结构化数据在语义集成中的匹配。

1 本体的介绍

本体的概念来源于哲学和人工智能,哲学中的本体是指对存在的系统化说明,而人工智能中的本体更强调概念的可表示与可呈现。在计算机界, Gruber、Studer、Borst等人认为本体是概念模型中可明确形式化规范说明各项内容以便共享。该定义涵盖了四层含义:概念模型、明确、形式化和共享。本体的目标是获取特定领域的数据信息,提供对该领域的共同理解,确定该领域内共同使用的数据,从不同层面形式化给出这些数据(术语)和数据间相互关系的确切定义,通过数据之间的关系来描述概念的语义。

同样,本体作为知识表示工具,与语义网络非常相似,也正成为知识处理的技术平台,被称为下一代的语义Web。就语义Web本身而言,它是目前Web应用的扩展,它能够描述一定的语义,使计算机及人类能更好地协调合作。本体是语义Web中知识推理的基础,是要实现机器间的可理解。同时,基于本体的OWL使得Web服务具备机器可理解性和易用性,从而让人性化的智能主体支持自动的、动态的Web服务发现、执行、组合和互操作。

2 数据异构分析及表示方法描述

2.1 结构化数据存在的异构分析

同一领域信息资源系统之间存在着语义上的异构。这些语义上的异构能引起各种矛盾。经过多组数据的分析,确定造成异构的原因主要有如下几个因素:

(1) 不同的信息资源使用不同的术语或者词汇表示同一概念;

(2) 同一词汇或者术语在不同的信息资源中表示不同的含义;

(3) 各信息资源使用不同的数据结构来表示相同或者相似的数据组成。

各信息资源中概念之间存在着千丝万缕的联系,但因为各信息源分布在不同区域,不同平台,这种隐含的联系不能具体表现出来。针对多组数据源的分析,所面临的语义冲突主要有:

(1) 值-值冲突:相同的数据表示的值不同。如同一数字分别用KM和CM为单位,它就表示不同的长度;

(2) 属性-属性冲突:不同数据源对相同实体的属性采用不同的组织结构,例如出生年月在一个数据库中是“年+月+日”,而在另外一个数据库中则采用年月日分开定义的方式;

(3) 表-表冲突:相同的概念在不同的数据库有不同的表现模型;

(4) 值-属性冲突:在不同数据源或者相同数据源中,某一表中被表示为属性名,而在另外一张表中被表示为属性值;

(5) 值-表冲突:在不同数据源或者相同数据源中,某一数据库中表示为表中某属性的值,而另外一个表示为表名;

(6) 属性-表冲突:在不同数据源或者相同数据源中,某一数据库中的属性名称被表示成另一数据库的表名。

2.2 结构化数据的表示方法

在结构化数据表示中,首先是建立领域本体,即某一特定领域中的元数据给出其全局性质的概念和定义。例如由OCLC首倡的都伯林核心元数据,包括提名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、权限Rights、关联Relation、覆盖范围Coverage等十五个元素的元数据集合,用于描述资源对象的语义信息,目前已成为IETF RFC2413、ISO15836、CEN/ CWA13874、Z39.85、澳大利亚、丹麦、芬兰、英国等国家和国际标准。

其次,建立局部数据结构的表示。通过对局部数据源的分析,采用树型结构表示结构化数据的层次关系;利用关联矩阵存储,能有效提高系统的访问效率,并给出树中每个节点存储表示。例如在某一个SQL Server数据源中,以数据源为顶点,采用自上而下的层次关系建立树结构。具体表示如图1所示。在语义异构中,主要是解决取值范围、属性类型、属性和表的冲突。针对树型结构,采用邻接矩阵表示节点和节点之间存在的联系,利用节点的长度表示节点所处的层次,进而利用与领域本体的元数据匹配,解决数据间的冲突和异构。

3 概念匹配解决的方法及实例分析

3.1 语义数据集成总体框架介绍

语义数据集成是将各局部数据源中的数据分析、整理组合后将最终的数据即结果返回给用户,使得用户不需要关心所有局部数据源的信息。语义信息集成在获得数据访问的结果时,根据领域本体处理文件中存在的异构定义如同名异义、异名同义等术语,处理掉这些异构,同时对于返回的数据进行冗余处理和排序,并将处理后的结果封装到虚拟体中,对外提供统一的API。如在M数据源中利用“男/女”表示性别,而在N数据源中,利用“0/1”表示性别,此时就要处理掉这些数据之间的不同,提供完整精确的数据结果。

图2给出了语义数据集成的框架。其中任务生成是用户的门户,用户通过该部分提交自己需要完成的任务。任务处理包括任务分解、访问控制和数据访问三部分,是根据领域本体与映射服务将用户提交的任务转换为各个局部数据源相关的形式,并按照匹配标准、数据访问权限等进行数据的强制处理和转换。局部服务是采用图1的树型结构描述数据源的相关信息,将局部数据源利用Web服务技术,封装该数据源的访问接口。

3.2 匹配映射方法

3.2.1 数据源形式化描述

为了能给出领域本体和局部数据源一个通用的形式化描述,首先要对本体进行形式化,在本文中,本体的形式化定义采用四元表示方法,具体见定义1。

定义1 本体的形式化表示:

本体O=(C,S,R,δ)

其中O表示本体;C表示本体中的概念集合;S表示本体的组织结构,如用is-a表示具有传递性和非对称性的层次结构;R表示概念间的相互关系,RC×C;δ表示关系和概念间的匹配函数的集合,δ:RC

语义数据集成中领域本体的形式化描述采用类似本体的表示方法。

假设某一个特定领域Gn个具体的局部数据源所构成,则需建立局部数据源和领域本体之间的映射关系,并描述局部数据源的形式化表示,见定义2。

定义2 数据源的形式化表示:

G=(D1,D2,…,Di,…,Dn)

其中Di表示某一特定局部数据源的集合。根据图1给出Di的形式化表示:

Di=(U,T,V,F)

其中U表示用户集合,T表示局部数据源表集合,V表述局部数据源视图集合,F表示局部数据源关系集合。详细定义为:

T=(T1,T2,…,Ti,…,Tn)

其中Ti=(p1,p2,…,pn);

V=(V1,V2,…,Vi,…,Vn)

其中Vi=(T1,T2,…,Tn),TiT;

F=(F1,F2,…,Fi,…Fn) Fi=(Tn,Tm)

其中Tn,TmT,pnTn,pmTm,Pn,Pm分别表示Tn,Tm表中的属性。

领域G中的概念一部分来源于领域专家的抽取,一部分来源于局部数据源T集合中,例如某具体数据源中具有代表性数据经专家判定和计算后可归纳到领域本体G的概念集合C中。

另外,因为在语义数据集成中,数据与数据之间的关系表示了数据所处的层次和数据要匹配的模型,所以关系的形式化表示非常重要,下面给出领域本体中组织结构R的部分关系标示内容:

(1) Combined—表示概念和概念之间是组合关系;

(2) SameAs—表示类和类相等,例如不同的表名称定义了同一组数据;

(3) Equal—表示不同表之间的属性和属性相等;

(4) IsPartof—表示部分与整体之间的关系;

(5) Attriof—表示某个对象是另一个对象的属性;

(6) Connect—表示两个对象之间通过同一变量具有关联的关系;

(7) beFormed—表示多个同一对象可以组合成另一对象的关系。

(8) Subclass—表示父类和子类之间的关系。

3.2.2 概念匹配方法及算法描述

在匹配过程中,根据概念的组织结构,采用语义匹配的方法计算概念之间的相似度以及概念的属性、取值比较完成概念之间的匹配。例如在数据源存储的相邻矩阵中,根据领域本体和局部数据源所存储概念在组织结构中的权值,如果权值不同表示所处的层次不同,则不进行匹配;如果权值相同,则根据其子类的属性、取值范围计算概念相似度(即采用了相似对象其拥有的属性和取值范围也基本相似的原理)。

概念匹配算法流程图和算法表示如图3和图4所示。

下面对算法作以简单说明。

(1) 概念的权值表示概念在属性结构中所处的层次,即相邻矩阵中对应的数值。

(2) 概念的属性,如果此概念已经是叶子结点,则直接计算其相似度;如果概念有叶子结点,则逐一访问存储其叶子结点,利用其所表示的语义以及对应值的存储情况确定其相似性。在本体文件中,采用了SameAs表示概念相等;采用Attriof表示某个对象是另一个对象的属性;采用Subclass表示父类和子类之间的关系。例如在概念匹配中,如果匹配成果,则将其存储到本体文件中,并利用SameAs表示。

(3) 计算属性相似度的平均值。对于每个都找到相似概念的属性值,计算所有属性值的平均值。如果属性匹配成功,则利用Equal表示属性相等,并将其存储到对应的本体文件中。如果存在属性的组合情况,则利用beFormed表示。

3.3 实验数据与算法特点分析

在此算法验证过程中,采用了客户关系管理系统(CRM)中的知识管理部分作为实验数据(限于篇幅,本文仅给出部分数据)。利用KM_CRM作为全局本体的概念源,以此分别引出的全局概念和属性见全局树,利用KMx_CRM、KMy_CRM作为局部本体的概念源,以此引出的局部概念和属性的局部树,具体见图5所示。

通过算法的运行基本找到了相似数据,并能对用户通过唯一接口搜索的数据提供多系统的服务,保证了数据访问的完整性。图6是算法运行结束后产生建立的映射文档。

针对CRM中知识管理的实验数据,采用了本文中提出的算法和弹性匹配算法选择了部分预设数据进行查询,其查询结果如表1所示。实验数据从一定程度上说明了本算法能消除已明确标记的同名异义和异名同义的词汇,能提高数据的查全率和查准率。

4 结 语

本文针对现有异构数据库集成中存在的问题,如结构异构、语义异构等,给出了消除这些异构的统一描述方式和数据定义及其算法的描述。本系统的优点主要是解决了目前数据库表、属性中存在的同名异义和异名同义的问题,提高了查准率和查全率。但是同时由于本系统的实现大部分内容是基于文档文件的查询,降低了查询速度,这需要在今后研究工作中做出进一步改进。

摘要:语义信息集成是目前屏蔽数据之间的半结构性、异构性和分布性的主要方法,其目的是为用户提供最大范围的精确数据。以解决信息集成中的语义冲突为目的,采用本体描述全局数据概念,树型结构描述局部数据概念,在此基础上,给出数据的逻辑定义方法,利用相似度计算匹配值来实现数据在语义集成中的匹配,并定义语义信息集成中映射算法的描述。最后,给出实验数据和算法执行的结果,验证了该方法的正确性。

关键词:结构化数据,语义集成,数据描述,映射算法

参考文献

[1]Yang Jianwu,William K Cheung,Chen Xiaoou.Learning Element Sim-ilarity Matrix for Semi-structured Document analysis[J].Knowledgeand Information Systems,2009,19(1):53-78.

[2]John F Kros,Mike Lin,Marvin L Brown.Effects of the neural networks-Sigmoid function on KDD in the presence of imprecise data[J].Com-puters and Operations Research,2006,33(11):3136-3149.

[3]Jeremy Barbay,Alexander Golynski,J Ian Munro,et al.Adaptive searchingin succinctly encoded binary relations and tree-structured documents[J].Theoretical Computer Science,2007,387(3):284-297.

[4]Manuel Avarez,Alberto Pan,Juan Raposo,et al.Exracting lists of datarecords from semi-structured web pages.data[J].Knowledge Engineer-ing,2008,64(2):491-509.

[5]李亚红.基于语义的异构信息集成研究[D].西北大学.

概念语义 第5篇

所谓复合词,指的是由两个或两个以上相同或不同词性的独立词,按一定顺序结合在一起构成的新词。无论是汉语还是英语,都有复合词,而且占总词汇量的大部分,其中复合名词的比例最大,数量庞大,种类繁多。因此,复合名词成了学术界研究的一个热门课题。关于英语复合名词的构型、句法和语义关系研究可参见Jackson&Amvela(2000:85)、王文斌(2001:140-145;2005)及其他相关的专著和论文。本文旨在从概念合成理论角度探究英语复合名词的结构法则,揭示其对语义构建的作用。

2. 理论背景

传统语法把复合名词的意义看作是复合名词各个组成部分名词的意义相加之和,这显然是把复杂的问题简单化了。复合名词的语义构建问题一直都是语言学界的一个棘手问题。吕淑湘先生在《语文常谈》(1980:65)里指出:“语言的表达意义,一部分是显示,一部分是暗示,有点像打仗,占据一点,控制一片。”语言的这种“以点控面”的现象,在复合名词中表现得尤为突出。下面笔者就复合名词语义构建的主要理论作一些简单介绍。

2.1 生成派转换理论

Levi(1978)主张复合词的表层结构是由其深层结构转换而来的,其深层结构是一个关系从句。例如,“toy factory”是由其深层结构“toy that produced by the factory”这个关系从句转换而来的。这种理论虽然比传统语法解释更胜一筹,但它仍然有极大的局限性。首先它不可能仅用几个谓词就能穷尽复合名词各组成部分名词之间的所有意义关系。例如“rain forest”的意义就不能套用谓词而把它理解为“a forest that has rain”,因为有雨无雨并不是雨林区别于其它森林的根本原因。其次,它不能解释具有歧义的复合名词的意义,例如“dog collar”可以理解为“a collar used by a dog”,也可以理解为“a collar that a

教学过程中,教师应强调注意力的重要性,并引导学生加强该方面的训练。而学生自己在通过阅读学习词汇的过程当中,也应当有意识地遵从这一原则,以使学习更加有效。

参考文献:

dog has”,它的意义要结合具体的语境才能理解。再次,这些谓词的含义太宽泛了,谓词本身的意义也具有模糊性,如“mountain town”和“mountain river”涉及“be”这个谓词,但实际上“town”有可能是“small town”,而“river”则可能是“large river”。这样谓词就失去了它的解释力。最后,转换理论没有考虑到语言意义构建的动态性。语言使用者在构建复合名词的意义过程中,往往会依赖社会知识、文化语境等外部因素,使这意义构建过程具体化。

2.2 概念合成理论

Fauconnier&Turner(1998)提出的概念整合理论(Conceptual Integration Theory),发展了Langacker的认知理论。Langacker认为复合概念结构(Composite Concept Structure)是由其成分概念结构(Component Concept Structure)整合而来的,在整合过程中成分概念必须调整其概念结构以形成复合概念结构。概念整合理论中的“概念合成”是指心理空间的合成,而心理空间是指人们进行交谈和思考时为了达到局部理解与行动的目的而构建的概念集(Conceptual Packet)(Fauconnier&Turner,1996:113),被投射的心理空间称为源域(Source Domain),接受投射的心理空间称为目的域(Target Domain)。所谓概念合成理论,就是对言语交际过程中各心理空间相互映射并产生互动作用的系统性阐述。概念合成理论是对在概念隐喻理论(Conceptual Metaphor)的基础上而形成的心理空间理论的延续和发展,是认知语言学的重要组成部分。概念合成是一种认知过程,它在复合名词的意义构建过程中起着很大的作用。

3. 复合名词的概念合成

概念合成就是指心理空间的合成。概念合成理论认为,最基本的概念合成网络模式是由四个空间构成的网络:两个输入空间、一个合成空间和一个类指空间。两个输入空间(Input Mental Space)的共有结构及其共有的抽象信息投射到第三个空间即类属空间(The Generic Space)里;同时,在这两个输入心理空间的基础上,通过跨空间的部分映现、匹配并有选择地投射到第四个空间———合成空间(The Blended Mental Space)。合成空间从两个输入空间中提取部分结构形成新显结构(The Emergent Structure)。这样,这四个空间通过投射链彼此连接起来,就构成了一个概念整合网络(Conceptual Integration Network)。

对上述由四个空间构成的网络模式,Fauconnier(1997)

richness on the guessability and the retention of words in a foreign

本论文受到陕西理工学院校级科研项目资助,项目编号:

曾指出,它是通过以下三种相互关联的方式来产生的:(1)组合(Composition)。对两个输入空间投射到合成空间的构成概念的部分元素组合,并形成各个输入空间以前均不存在的新关系,其组合过程也就是一个新范畴构建的过程。(2)完善(Completion)。借助背景框架知识、认知和文化模式,组合结构从输入空间投射到合成空间。这一组合结构可视为合成空间中一个更大的完整结构中的构成部分。合成空间中由提取结构所激活的型式结构(Pattern)不断完善,并形成一个更大的新显结构。(3)扩展(Elaboration)。合成空间中的结构可以扩展,这就是新显结构对合成空间进行运演(Running the Blend)。即,根据它自身的新显逻辑(Emergen Logic)在合成空间中进行认知运作。比如“dolphin-safe”这个复合名词,当它作为标语粉刷在金枪鱼捕鱼船上,它的意思是注意保护海豚。其概念合成过程如下:首先dolphin是输入空间I1,safe是输入空间I2,二者用连字符结合在一起构成了他们的类指空间,类指空间通过跨空间的映现,决定了空间I1和空间I2对合成空间的有选择的投射。在合成空间里这两个场景经过组合,形成新显结构:不能捕捉海豚,海豚是安全的。再比如“child-safe”用于修饰房间,它的意思是在该房间里孩子的玩耍很安全,没有任何危险。这里,child是输入空间I1,safe是输入空间I2,两个单词用连字符合在一起构成了他们的类指空间,类属空间通过跨空间的映现,决定了空间I1和空间I2对合成空间的有选择的投射。在合成空间里这两个场景经过运作组合,形成新显结构:孩子在这个房间里玩耍是安全的。在这些例子里,来自不同心理空间的成分被复合成一个新概念,对它的理解,使用者只能从词语本身得到有限的语言线索,更多的时候,使用者必须经过在合成空间里将两个场景运作组合,形成新显结构,才能使复合名词的理解成为可能。

4. 概念合成理论对复合名词的语义构建的作用

概念合成是一种认知过程,它在复合名词的意义构建过程中起着很大的作用。本文认为,其作用主要体现在以下四个方面:

首先,离心构式复合名词的产生就是概念合成的结果,因为离心构式复合名词往往与隐喻和转喻有关(王文斌,2005),尽管“转喻投射具有认知域内部的特征,而隐喻投射则具有认知域外部的特征”(张辉,2003:49),可这两种手段都是将源域的某一凸显特征投射到目的域的某一对应特征上来,将两者整合起来。例如egg之所以能与head结合成一个复合名词,就是因为源域egg具有“光秃秃的”这一凸显特征,将之投射到目的域head的对应特征上,在经过与“知识分子”在认知域内部凸显特征的对应,遂组合成egghead,意指“知识分子”。

其次,向心构式复合名词也是概念合成的结果,不同的是,有时会涉及隐喻和转喻,有时则不会,如bubble economy一词,bubble和economy属于不同的心理空间,bubble为具体概念,而economy为抽象概念,从组合的角度来看,属于反常搭配,人们之所以将bubble与economy组合成一个复合名词,就是因为人们舍弃了原句法结构中各自的次要成分,凸显了“经济”和“泡沫”之间的内在特征,所以才将二者结合成一个整体,表示“虚假繁荣的经济”。此类的复合名词在英语词汇中并不少见,如mushroom cloud(蘑菇云),cold war(冷战),black market(黑市),sunrise industry(朝阳企业),junk food(垃圾食品)等。还有大量的复合词并不含隐喻和转喻模式,但也是概念合成的结果,如sunrise这一复合词,sun和rise属于不同的心理空间,sun为实体概念,rise为空间概念,两个的心理空间结合在一起表示“日出”。

再次,概念合成理论对复合名词的语义解读也起着重要作用。例如,离心构式复合名词之所以语义晦涩,是因为它们大多为隐喻和转喻的结果建构,如上文提到的egghead,从组合的角度来看,egg与head两个构词成分属于反常搭配,它违反了词汇的选择限制规则,是一种语义错置,它们的出现扰乱了周围的语义网络,给人们造成了语义理解上的困境。人们在解读复合词的语义时,必须要以凝固化的隐喻和转喻映现模式为基础,输入空间1(如第一成分egg)与输入空间2(如第二成分head)结合在一起形成整合空间,然后“对整合空间进行运演”(Fauconnier,1997:149-151),即根据自身的层创逻辑在整合空间中进行认知运作。复合词的意义正是在整合空间中才得以解读。

5. 结语

复合名词意义的建构离不开概念合成理论。它的四空间模型是以相似性为基础表现层创结构在合成空间中得以产生的过程,它既强调输入空间相关成分的映射和向复合空间的投射,也强调语言理解者应从复合空间里寻求各种可能性,构建与语言理解所必须的相关输入空间,为语言理解提供必要的指称参考背景,使语言理解成为可能。概念合成是人们进行思维活动,尤其是进行创造性思维活动时的一种认知过程,它为语言学研究提供了一个很好的切入点,为我们正确理解言语提供了一个崭新的认知视角。但它“并不是唯一需要证伪的理论,而是一个基本框架”,“自身也存在着一些不足之处”(王文斌,2007),有些问题它也无从解决,如概念合成的理据、语义条件的限制等。这些问题或现象今后尚须进一步探究。

摘要:复合名词的意义构建离不开概念合成。它是一种认知过程,在复合名词的意义构建过程中起着很大的作用。离心构式复名合词的产生就是概念合成的结果,向心构式复合名词也是概念合成的结果,并且概念合成理论对复合名词的语义构建与解读也起着重要作用。但它在语义构建上仍存在一定不足,须进一步改进。

关键词:复合名词,意义构建,层创结构,概念合成

参考文献

[1]Fauconnier,G.&Turner M.Blending as a Central Process of Grammar[A].In Adele Goldberg(ed.).Conceptual Structure,Discourse and Language[C].Stanford:CSLT Publications,1996:113.

[2]Fauconnier,G.Mappings in Thought and Language[M].Cambridge:Cambridge University Press,1997:149-151.

[3]Fauconnier,G.&M.Turner.The Way We Think[M].New York:Basic Books,2002.

[4]Jackson,H.&Amvela,E.Words,Meaning and Vocabu-lary[M].London:Cassell,2000:85.

[5]Levi J.The Syntax and Semantics of Complex Nominals[M].New York:Academic Press,1978.

[6]吕淑湘.语文常谈[M].人民教育出版社,1980:65.

[7]束定芳.论隐喻的运做机制[J].外语教学与研究,2002,(2).

[8]王文斌.英语词汇语义学[M].浙江:浙江教育出版社,2001:140-145.

[9]王文斌.英语复合词的内在句法、语义及认知构建[J].外语学刊,2005,(2).

[10]王文斌.隐喻的认知构建与解读[M].上海:上海外语教育出版社,2007:35-44.

概念语义 第6篇

领域本体[1]是本体[2,3,4,5]的一种,它描述特定领域(医疗、教学等)中概念以及概念之间的关系。其目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。通过对领域本体中概念结点间关系的描述和分析,我们可以发现它们在概念语义上的相似性。进一步,我们就可以将这种概念语义相似性应用到其他研究领域(如语义网、信息检索等)。目前,对于概念之间语义相似度的计算,主要从3个不同的角度进行了研究:(1)文献[6]提出的基于距离的语义相似度计算模型;(2)文献[7]提出的基于信息内容的语义相似度计算模型;(3)文献[8]提出的基于属性的语义相似度计算模型。针对以上三种计算模型的优缺点和领域本体所特有的性质,本文提出了一种改进的领域本体概念语义相似度计算方法。该方法在计算本体树状层次结构中两概念结点路径距离的基础上,加入对语义重合度、语义深度、语义密度的讨论和量化,并把概念的属性因素考虑到其中,从而更加全面地量化了领域本体概念结点之间的语义相似度,提高了概念之间语义相似度量化的准确性。

1 改进的领域本体概念语义相似度计算方法

本文主要基于领域本体的树状层次结构(如图1所示),从路径距离、语义重合度、语义深度、语义密度和概念属性等几个角度来讨论概念语义相似度的计算方法,具体的计算过程中分别以路径距离因子δ、语义重合度因子α、语义深度因子β、语义密度因子λ和概念属性因子θ来进行刻画。下面对各因子的计算方法逐一进行讨论,最后给出概念语义相似度的计算公式。

1.1 路径距离因子

定义1领域本体中两概念结点C1、C2间的路径距离Dis(C1,C2)为C1、C2在无权层次树中的最短路径长度,即路径上所有边权重均为1时所计算出的路径长度。

由定义1可知,Dis(C1,C2)越小,C1与C2的语义相似度越大。我们用以下公式来描述路径距离因子δ:

其中,Depth(T)为领域本体树状层次结构的深度;γ1为可调节参数。

1.2 语义重合度因子

定义2领域本体中两概念结点C1、C2间的语义重合度count(Up(C1)∩Up(C2))为C1、C2所具有的共同祖先结点的个数。

由定义2可知,count(Up(C1)∩Up(C2))越大,C1与C2的语义相似度越大。我们用以下公式来描述语义重合度因子α:

其中,Depth(C1)和Depth(C2)分别为概念C1和C2在本体层次树中的深度,max(Depth(C1),Depth(C2))为Depth(C1)和Depth(C2)中的最大值;γ2为可调节参数。

1.3 语义深度因子

据领域本体的树状层次结构可知,距离(连通边数)相等的两个概念的语义相似度随着它们所在的层次深度总和的增加而减少,随着它们之间的层次差的增加而增加。于是,也有用下式来描述语义深度影响因子[9,10]:

本文认为,在没有一定语义重合度的前提下,这个因子的意义不大:在该公式前提下,图1中C5与C4同C5与C6在语义深度方面对概念语义距离所产生的影响是一样的,这是不合理的。

本文利用概念到他们公共父结点的距离之和来衡量他们基于语义深度的相似性。该和越大,证明二者语义距离越大,语义相似度越小;反之,二者语义距离越小,相似性越大。另外,我们利用树的深度来量化语义深度。由此,我们得出如下有关语义深度影响因子的公式:

其中,count(C1,Up(C1,C2))为C1到C1与C2公共父结点的距离;count(C2,Up(C1,C2))为C2到C1与C2公共父结点的距离;Depth(T)为树的深度;γ3为可调节参数。

1.4 语义密度因子

语义密度是指概念所拥有的兄弟结点的个数。在本体树中,某一局部结点密度越大,说明对该结点的概念细化就越大,其子结点间的语义距离就越小,语义相似度越大;反之,就越小。文献[9]讨论了文献[10,11]所提出的基于语义密度的相似度公式:

的弊端,提出以下公式来计算语义密度影响因子:

其中,Max(Width(T))指本体层次树中最大的语义密度,γ4为可调节参数。本文认可赵飞等对语义密度因子的计算方法,并继续沿用。

1.5 概念属性因子

每个概念都有其各自对应的属性,属性说明概念的特征。基于属性计算概念相似度的理论依据是:如果两个概念的属性都相同,那么这两个概念是相同的;如果两个概念具有相似的属性,那么这两个概念也是相似的。属性有属性名称、属性数据类型、属性值等要素。因此,判断两个属性是否相似主要从这3个要素的相似度进行考虑。

设概念A的属性为ai,概念B的属性为bj,两个属性间的相似度为Sim Attr(ai,bj)。属性相似度计算公式如下:

其中,权重ω1、ω2、ω3应满足:ω1+ω2+ω3=1。设概念A和概念B共计算出n个Sim Attr(ai,bj),并设置相应的权重为λk。则概念A和概念B的属性相似度因子为:

在具体实施时,若概念所涉及的属性个数较多,可只优先选择信息增益较大的属性进行相似度计算,以减少计算量。

1.6 概念语义相似度计算公式

以上我们对影响概念间语义相似性的五个因素:路径距离、语义重合度、语义深度、语义密度和概念属性的影响因子的计算进行了分析、讨论,并给出了其具体计算公式。基于此,以下给出领域本体概念语义相似度的计算公式:

需要注意的是,具体计算时以上五个因素对语义相似度的影响程度是不同的,应根据实际需要通过调节γ1、γ2、γ3、γ4、γ5的值来控制各个影响因子对语义相似度的影响程度。

2 方法应用及结果分析

本文所提出的计算方法在实验室构建的基于领域本体的聚焦爬虫系统[12]中得到了应用和验证。整个爬虫系统的运行基于一个计算机领域本体进行构建,其主要作用就是爬行与计算机相关的网页信息。而本文所提出的概念相似度计算方法则主要用在聚焦爬虫的网页分析环节,用于判定对文档进行中文分词后各词条与主题向量各关键词间的语义相似性。实验先后就改进前后的语义相似度计算方法对聚焦爬虫的抓取效果进行了对比,改进之处主要体现在:(1)查全率提高了9.6%;(2)查准率提高了34.6%。其不足之处在于查询速度有所降低,这需要在进一步的研究中通过优化网页分析过程中文档向量的生成算法来实现。

摘要:基于领域本体的树状层次结构,从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度讨论并优化了领域本体概念语义相似度的计算方法。该方法在聚焦爬虫网页分析中的成功应用,充分验证了它对概念语义相似度进行量化的准确性。

关键词:本体,领域本体,概念语义相似度

参考文献

[1]Guarino,Nicola,Pierdaniele Giaretta.Ontologies and Knowledge Bases:towards a Terminological Clarification[M]//Towards Very LargeKnowledge Bases.ISO Press,1995:25-32.

[2]Neches R,Fikes R E,Gruber TR,et al.Enabling Technology for Knowl-edge Sharing[J].AI Magzine,1991,12(56):80-91.

[3]Guber TR.A translation Approach to Portable Ontology Specifications[J].Knowledge Acqusiton,1993(5):199.

[4]Studer R,Benjamins VR,Fensel D.Knowledge Engineering,Principlesand Methods[J].Data and Knowladge,1998,25(122):161-197.

[5]Dejan Milojicic.Mobile agent application from Trend Wars[J].IEEEConcurrency,2000(11):12-16.

[6]Leacock C,ChodorowM.Combining Local Context and WordNet Similar-ity for Word Sense Identification[M]//Felbaum C.WordNet:An Elec-tronic Lexical Database.Cambridge,MA:MITPress,1998:265-283.

[7]Lin D.An Information-Theoretic Definition of Similarity[C]//Proceed-ings of the lnternational Conference on Machine Learning,1998:296-304.

[8]Tervsky.Features of Similarity[J].Psychological Review,1977,84(4):327-352.

[9]赵飞,赵捧未,淡金华.基于语义距离的领域本体概念相似度研究[J].科技情报开发与经济,2009(5):71-73.

[10]王家琴,李仁发,李仲生,等.一种基于本体的概念语义相似度方法的研究[J].计算机工程,2007(11):201-203.

[11]邹文科.基于本体技术的语义检索及其语义相似度研究[D].北京:北京邮电大学,2008.

概念语义 第7篇

1 概念隐喻和政治话语

1.1 概念隐喻理论及其认知机制

隐喻 (Metaphor) 一词源于希腊语“metapherein”, “meta”意为“从一边到另一边”, “pherein”的意思是“传达、传递”, 二者合一意指用一个事物的某些特征认识另一事物的语言过程。隐喻不是语言的表面现象而是深层的认知机制, 它之所以具有强大的生命力是因为隐喻可以使人们从不同的角度认识世界, 对不同的事物建立种种不同的联系, 做出千变万化的解释[1]70。所以不难看出, 隐喻普遍存在于我们的生活中, 体现于我们的思想和行动上, 是我们“赖以生存”的手段, 只有了解隐喻的认知机制, 我们才能抓住事物的本质。正如, 从“A is B”这种隐喻形式得来的“Argument is war”“Theories are buildings”来看, 单纯地按照语言的本义分析, 争论与战争、理论与建筑都是毫无相似而言的。若非要按照本义语言来解释词汇意义, 而不去探索主体和喻源之间是否存在更深层次的概念重合, 其结果只能是断章取义, 不得要领。

以“A is B”这种类型的隐喻模式来探讨概念隐喻的运作机制, 我们可以将A部分看作目标域 (target domain) , B部分看作始源域 (source domain) 。一般来说, 始源域是人们所熟知的、有形的具体概念, 而目标域则是较为抽象的概念[3]。由始源域向目标域的映射过程如图1所示。

在A1 (Life) is B1 (Journey) 这组隐喻中, 我们不难看出这种映射具有单向性, 必须由“旅程”这个概念结构来构建和理解“人生”的概念结构, 反之则不成立。正是由于人类对“旅程”有所经历和感受, 才能选择“旅程”这个概念结构中部分凸显的特征映射到“人生”上, 而非将始源域中所有概念全部映像到目标域中, 否则谈论概念隐喻是没有意义的。由此可见, 始源域向目标域的映射过程还具有互动性。目标域的特征会决定始源域的哪些特征会被映射出来[5]464。同理, 在A2 (Argument) is B2 (War) 这组隐喻中, 只是凸显“争论”如同“战争”一样激烈这层含义时, 我们就不需要关注“战争”的其他方面, 特别是和隐喻不一致的地方, 即不需要过于关注两个事物的每一个方面的对应, 否则我们很难从两个事物的某些特征形成概念隐喻[1]76。

1.2 政治话语界定

莱考夫[6]认为, “政治就是语言, 语言亦是政治”。虽然莱考夫道出了政治和语言之间有着密不可分的联系, 但他未曾对政治话语进性界定。马敏[2]认为, “政治语言是政治神话或者政治意识形态的建构材料, 是在特定政治情境中所运用的语言”。而孙玉华、彭文钊、刘宏[4]则认为, “语言是政治活动的要素及政治交际的媒介, 既介入政治交际中, 影响政治交际进程, 又是形成思维方式、价值判断、世界观的决定方式。”因此政治话语被界定为“各种形式、各种语境下的辩论、发言、演讲、会谈、访谈、访问、谈判、标语、口号等政治话语, 书面化之后即成为政治文本。”那么, 对于政治话语深层含义的解释就不得不涉及政治语言的语义层面了。接下来该文以政治话语本文为基础, 找出其中蕴含的隐喻表达式, 对其中承载着概念隐喻功能的普通词汇进行语义构建。

1.3 概念隐喻与政治话语的联系

孙玉华、彭文钊、刘宏[4]认为语言与政治之间存在共变关系, 即语言与政治作为社会发展的自变量与因变量要素, 一个要素的变化必然带来另一个要素的相应变化, 二者相辅相成。不容置疑的是任何语言都具有隐喻性, 政治话语更是通过隐喻来构建其意识形态。正是因为概念隐喻的这种构建模式能够使得政治话语更加生动形象且深入民心, 极大地满足了政治话语传播者想要通过政治语言来宣传其政治理念的愿望。所以说概念隐喻就是政治话语的基石, 离开了隐喻的政治语言就成了无水之鱼。

2 概念隐喻对政治话语中词汇语义的构建

L&J[7] (1980) 将隐喻分为三大类:结构性隐喻、方位性隐喻、本体隐喻, 也主要意在帮助分析隐喻意义形成的过程和方式。王寅[5]408认为, “认知主体通过推理将一个概念域映射到另一个概念域, 从而使得语句具有隐喻性;隐喻中的本体和喻体涉及表达两种不同事体的思想, 它们的并置产生了矛盾, 在互动的碰撞中获得统一, 主体再结合其他因素便可获得隐喻义。”由此可见, 我们更关心的是始源域的某些特征将如何转移到目标域上, 同时还要关注目标域、始源域和语境之间的关系, 三者之间的意义生成始于冲突又结于统一[5]406。

2.1 空间隐喻对词汇语义的构建

空间隐喻又称方位隐喻 (Orientational Metaphors) , 运用诸如上下、内外、前后、远近、深浅、中心—边缘等表达空间的概念来组织另一概念系统[5]410。英语中的空间隐喻通常包含“updown”“in- out”“on- off”“deep- shallow”“central- peripheral”“front-back”。由“up-down”这对相对空间域也会产生的一系列隐喻性表达, 如“more is up”和“less is down”“good is up”和“bad is down”。

1) 我们希望文莱独立后, 两国关系不断向前发展。

2) 这个问题解决好了, 就能保证我们党的正确路线的连续性, 社会主义事业就会继续蓬勃向前发展。

3) 上级/下级, 上级主管部门

例句中的“向前发展”, 其中“前”代表好的、积极的、先进的, 由此可推出“向前发展”的隐喻意义即往好的结果发展。而“向后”中“后”就有不好的、消极的意思。“上级、下级”中的“上”建构的意义即好的、强的、有权力的, 所以说“power is up”“powerless is down”。

2.2 本体隐喻对词汇语义的构建

本体性隐喻 (Ontological Metaphors) , 用关于物体事物概念或概念结构来认识和理解我们的经验[5]410。而其中又具有代表性的两种本体隐喻是实体隐喻 (Entity Metaphor) 和容器隐喻 (Container Metaphor) 两种。

1) 民惟邦本, 本固邦宁。

2) 培育和践行社会主义核心价值观要打牢根基

3) 人民代表大会制度的先进性和生命力在于它深深植根于人民群众之中。

例句中“ 本”“ 根基”“ 植根”都涉及了“A country is a plant”。因为人民和国家之间的关系犹如根与植物间的关系。只有人民生活幸福安康, 国家才能和平富强。同样由“根”概念化而来的“植根”“根基”等词汇的隐喻意义的构建也不难分析。“果实”“花朵”等普通词语也常常被用在政治话语中, 其建构的话语意义是指目标域取得了令人满意的成果。

2.3 结构隐喻对词汇语义的构建

结构性隐喻 (Structural Metaphor) 指隐喻中始源概念域的结构可以系统地转移到目标概念域中去, 使得后者可按照前者的结构来系统地加以理解[5]409。例如argument is war这一概念隐喻, argument这一概念用war来解释, 把战争的部分特征映射到争论这一概念上, 使得争论这一抽象概念更容易被大家理解。

1) 1949年, 建立了各族人民幸福的大家庭――中华人民共和国, 完成了民主革命的伟大历史任务。

2) 维护中华民族大家庭的团结, 是每个公民的神圣职责。

从上述例子可以看出, 始源域中的“家庭”直接被映像到目标域“国家”中去, 也就是说我们用“家庭”所具有的典型的性质特征来对“国家”的部分特征进行框定。“政府是父母”“公民是子女”“公民之间是同胞关系”“管理者是当家人”等以“国家是家庭”为隐喻框架引申得来。

3) 另一个是广泛团结台湾同胞、港澳同胞、海外侨胞, 以拥护祖国统一为政治基础的联盟。

上述例句中“同胞”映像出的关系是台湾、港澳以及海外的人民与内地人民之间兄弟姐妹的关系, 同时也能反映出“国家是父母”和“人民是子女”这样的概念隐喻。

4) 祖国要统一, 人民要团圆, 是中华儿女的共同心愿。

5) 中国所奉行的“与邻为善、以邻为伴”的外交政策进一步拉近了中国与周边国家的关系。

同样在“国家是家庭”这样的结构隐喻中, 我们可以将与一个国家相邻近的国家视为邻国, 那么日常生活中邻里之间的良好关系便可映射到国与国之间的关系上了。

3 结束语

该文对政治话语进行了界定, 并以概念隐喻为基本理论框架对政治话语中普通词汇的意义进行构建, 以具体实例为研究对象, 阐述了概念隐喻是如何完成从始源域到目标域的映射, 进一步证明了政治话语中普通词汇是具有广阔的政治意义的。这将为广大学习者提供方法上的借鉴, 从而对政治话语有更深刻的理解。

参考文献

[1]胡壮麟.认知隐喻学[M].北京:北京大学出版社, 2004:70-464.

[2]马敏.政治语言:作为话语霸权基础的结构——功能分析[J].中共浙江省党校学报, 2004 (4) :34.

[3]束定芳.隐喻学研究[M].上海:上海外语教育出版社, 2000:68.

[4]孙玉华, 彭文钊, 刘宏.语言的政治vs.政治的语言——政治语言学的理论与方法[J].外语与外语教学, 2015 (1) :4.

[5]王寅.认知语言学[M].上海:上海外语教育出版社, 2006.

[6]Lakoff G.Talking Power:The Politics of Language in OurLives[M].New York:Basic Books, 1990:13.

概念语义 第8篇

概念图由John F.Sowa于1976年[1]首先提出。在“Conceptual Structures”[2] (1984) 一书中形成了完整的概念结构理论。概念图是一种新的知识表示方法, 借助它可将一组彼此关联又各具复杂含义的信息转化成易于理解、条理化的结构, 以便进一步分析。对概念图的研究和应用已经引起高度的重视。它作为一种教学方法或手段在西方国家的中学和高校已经得到了广泛的应用[3]。介绍到我国虽然还不久, 但已经有教育工作者在做研究, 并取得了一些成果[4,5,6,7,8,9]。可惜的是至今在计算机上尚无有效的技术将一段汉语文本转换为概念图。

本文试图以概念图知识表示方法为基础, 应用语义结构文法和格语法的基本思想和方法, 结合领域词典和领域语义规则库, 将语法分析和语义分析有机地结合起来对句子进行深层次的语义分析, 产生与句子相应的概念图。

1 概念图的定义

概念图是有向连通图, 由概念结点和关系结点组成, 关系结点表明概念结点之间的语义关系, 有向性通过概念结点和关系结点之间的弧来表示。它可形式化表示如下。

概念图CG= (C, R, Arc) , 其中C={C1, C2, …Cm}是概念结点 (Concept node) 的集合;R={R1, R2, …Rn}是关系结点 (Relation node) 的集合;Arc= (C×R) ∪ (R×C) 是弧的集合。

2 概念图的生成技术

概念图中有两种不同的结点, 分别对应着文本句子的概念词和关系词。让计算机从文本句子中自动获得专业领域概念并对概念词和关系词进行分类目前还比较困难, 所以必须面向领域建立一个领域词典。通过访问领域词典, 计算机获取文本句子中领域概念词和关系词, 并根据领域词典表示的各个词之间的语义关系对句子进行语义分析, 在此基础上生成概念图。领域词典包括了词和词的各种语义信息以及语义关系。同时, 领域词典的引入解决了多词同义等问题。由于篇幅限制这里不作详细介绍。

2.1 预处理

针对汉语句子的特点, 首先对句子进行分词, 得到具有语法信息的语言单位, 然后在领域词典的基础上进行相关的预处理, 得到句子的线性词序列。具体的处理步骤如下:

1) 调用中科院计算所汉语词法分析系统ICTCLAS对句子文本进行分词处理, 选择一级标注和北大标准的输出格式:给每个词注明词性。

2) 利用虚词表进行过滤处理, 删除一些无意义的助词、插入语等。

3) 利用语法规则和领域词典, 根据上下文, 来消除分词和词性标注中的歧义结构[12,13], 进行短语归结等处理。语法规则对分词和预处理起辅助作用, 如领域内一些不该分的短语被分词了, 需要重新组合;本文直接使用了文献[14]中的歧义格式规则。

2.2 基于语义结构文法和格语法的语义分析

本文应用了语义结构文法[10,11]的基本思想和方法对单句进行语义分析, 在此基础上结合格语法理论建立一个文本短句概念图生成系统。

2.2.1 语义结构文法

语义结构文法[10,11]的基本思想:通过语义函数来描述词语之间的语义搭配关系, 得到句子的语义信息。然后在语义信息的基础上, 根据一些语义规则对句子进行语义分析, 通过对语言单位的模式识别得到相应的语义规则式, 然后按照语义规则式中的语义条件得到句子的语义结构。

2.2.2格语法

格语法是生成转换语法的一个新的发展分支。格语法是对句子的语义层进行分析, 在格语法中, 句子的深层结构是指深层的句法语义关系, 如施事、受事、与事、方位等格的关系。这里的“格”是指名词和谓语之间的一种固定不变的语义结构关系。而在计算机领域中或者同一领域中各个名词 (概念词) 之间就是存在着一种相对固定的关系。本文利用语义结构文法和格语法的基本思想得到单句的语义结构, 从而语义结构得基础上与领域语义库进行模式匹配生成单句所对应的概念图。

定义2.1:一个语义函数f是从R到C的幂集上的映射。

语义函数建立起概念类词汇之间的关系。文法中定义了一组语义函数, 例如。DClass函数给出一个词所隶属的领域属性。EXP、AGN、GUS等语义函数描写了关系词所期望概念词C。FClass函数给一个词汇相应的语义函数作为该词的表层语义信息存放在领域词典中。

定义2.2:一条语义规则式是由以下四个部分构成的:

1.模式X, 是语法符号串;

2.语义条件M, 是由语义函数构成的逻辑表达式;

3.语义结构N, 是一个概念图的构造;

定义2.3:一个语义结构N是一个三元组 (C1, R, C2) , 其中:

1) C1、C2是非空有穷集, 其元素称为概念结点。

2) R是关系结点的有穷集, 其元素表示概念之间的关系, C∩R=Ф。

语义结构文法中的规则式同时具有语法描写和语义描写, 把句子直接转换为它的表层语义。深层语义依赖于领域, 是句子在具体语言环境中的意义。通过语义函数建立词汇和概念类之间的联系, 一个词汇的相应的语义函数值作为该词的表层语义信息存放在领域词典中。

动词在句子中主要起谓词的作用, 表示概念之间的相互关系, 格语法理论揭示了句子的深层结构中存在的各种语义关系。应用格语法理论对各类词语建立相关的表层语义关系。动词与其前后名词性成分间存在的语义组合关系称为格关系。在深层结构中根据出现的格的不同又分为基本式和扩展式, 基本式是由必须格和动词构成, 也称为格框架, 扩展式是在基本式的基础上增加可选格构成。一个句子的基本语义由基本式决定。

在对句子进行分析时, 语义条件中引入了深层语义条件, 在格语法中基本式和扩展式[15]的基础上, 从领域词典中获取词的深层语义, 把表层语义和深层语义有机地结合在一起来对句子进行语义分析, 得到句子相应的概念图。

单句概念图通过句子符号串的模式匹配得到, 所以, 需要建立汉语语句模式串的语义规则式。对于一个模式串来说, 其语义规则式的数目是有限的。而对于汉语语言来说, 在某一领域, 符合语法的模式串数目也不是无限的。本文收集了一定数量的具有领域代表性的样本文档作为训练语料进行统计, 得到常用的语句串模式, 然后再为它们建立相应的语义规则式以及对应的概念图。如果一个符号串z与模式X相匹配, 并且满足某个语义条件Bi, 则得到一个相应的语义关系序列。由于篇幅限制在此只举例介绍几个简单的语句串模式及其语义规则式。

2.2.1“的”结构的语义规则[16,17,18]

结构助词“的”是现代汉语中的高频词, 使用范围非常广泛, 语义结构也很复杂。本文收集了5种语句串模式和6种语义规则式。例如:

语句串模式:<ADJP><NP1><的><NP2>模式和<NP1><AD-JP><的><NP2>。

语义规则式A:if DClass (NP2) =”C”and DClass (NP1) =”s”and Attribute (NP1, NP2) ≠null then<ADJP><的><NP2>, 且DClass (的) =“属性”。

语义规则式B:if DClass (NP1) =”C”and DClass (NP2) =”C”then (<NP2><的><NP1><是><ADJP>) , 且DClass (的) =“属性”, DClass (是) =“属性”。

2.2.2“是”结构的语义规则

“是”在现代汉语中是高频词, 它的使用范围非常广泛。在本文中, 按照“是”字的用途同样可以分为两类:充当关系词和虚词, 具体规则如下:

语句串模式1:<NP1><是><NP2><VP>。

语义规则式:if FClass (NP2) &AGN (VP) and FClass (NP1) &OBJ (VP) then<NP2><VP><NP1>。

语句串模式2:<NP1><是><NP2>/<ADJP>模式。

语义规则式:if DClass (NP1) =”C”and (DClass (NP2) =”C”or (ADJP&EXP_adjp (NP1) ) then<NP1><是><NP2>/<ADJP>, 且DClass (是) =“属性”。

2.3 关系类型

本文根据以下关系类型:属性关系、分类关系、组成关系、承接关系、趋向关系、优先关系和领域关系, 来对语句串模式进行了分类。

比如分类关系类型收集了13种语句串模式和21种语义规则式。

语句串模式:<NP1><Para CP><NP2><VP><NP3>。

语义规则式A:if DClass (VP) =“分类”and RClass (NP1, NP3) =“分类”and RClass (NP2, NP3) =“分类”and then ( (NP3, R, NP1) , (NP3, R, NP2) , Headnode=NP3) , 其中R=“分类”, 概念图如图2.1所示。

3 概念图生成的算法

3.1 概念图生成算法及说明

利用中科院的分词系统ICTCLAS对文本句子已经进行了分词和词性标注等预处理, 得到了文本词串Text Str。

1) 初始化图队列Ini Queue (CGQueue) , 读取第一个分句的词串Wordqueue和该分句的第一个概念词First Word, 则转向4) ;

2) 读取下一个分句:Wordqueue=Next Sentence (Textstr) , 若指针为空, 说明文本句子已经处理完毕, 则转向7) ;

3) 进行语义分析:调用Analyse (Wordqueue) , 得到一个以Headnode为头结点的分句概念图Sub CG;

4) 新的分句概念图入图队列:En Queue (CGQueue, Headnode) , 转2) ;

5) 得到由所有分句所生成的概念图, 并确定图队列的头结点为概念图的头结点。

4 概念图应用举例

概念有助于汉语理解, 其应用广泛。众所周知, 在计算机考试系统中对主观题的自动批改一直没有得到很好地解决, 本文的出发点之一就是想用概念图来表达主观题的标准答案和学生的答案, 然后比较两者的概念图来评价学生的答案。为此本文针对《计算机导论》这一课程的计算机考试系统对一个主观题的简短答案的计算机自动批改实验。本文对汉语句子的处理是以简单句型、基本句型为主, 并以完整的单句 (简短句) 为处理单位, 对单句中的代词以及单句之间的关系暂不做分析。

4.1 测试步骤:

1) 建立《计算机导论》课程的领域词典。

2) 给出标准答案将标准答案转换为概念图。

3) 将20个学生的答案转换为概念图并按公式 (4.1) 计算概念图相似度和给出得分。

设有标准概念图GC和学生概念图GS, 其中GC的标准图队列QC中有Lq个头结点, 每个分句概念图Sub Gi中有LRi个非复合概念的关系结点, i∈[1, Lq]。

其中:Sim C (CC, CS) 为概念结点相似度, 取值{0, 1};Sim R (RC, RS) 为关系结点相似度;取值{0, 1};

ai是单句概念图的分数权值, bi是单句概念图中关系结点的权值,

且。详细设置和算法参见[24]。

4.2实验结果分析

通过对上面的实验结果可以看出, 自动批改的得分普遍小于教师的评分。对20个学生的答案进行分析, 可以得出教师评分和自动批改结果的误差由以下几个方面的原因造成的:

1) 汉语的表达具有多种形式, 自动批改中标准答案的唯一性降低了它的准确性;

2) 教师评分受主观因素的影响, 对表达不精确的答案给了全分, 而在自动批改中, 对学生概念图的匹配具有唯一性。

改进的办法:鉴于汉语表达的多样性, 我们可以通过为简答题提供多个正确答案来提高自动批改的准确度。

结束语

本文应用语义结构文法的思想和方法, 提出了一种汉语短文转换为概念图技术, 为概念图的应用提供了基础。由于汉语的语法分析和语义分析是一项困难的工作, 因此本文提出的技术还需要进一步完善。例如还只能把一些简单的分句转换为概念图, 语义规则库也还不完善, 句子句型的统计不够完善, 语义规则也不全面;没有涉及对句子中的代词的处理, “否定”这个语法现象所能处理的只是其中的一部分情况等等。

摘要:概念图是一种新的知识表示方法, 有助于汉语理解。本文试图应用语义结构文法和格语法的思想和方法, 结合领域词典, 将语法分析和语义分析有机地结合起来对句子进行分析, 产生与句子相应的概念图。在本文的最后以通过将简答题答案转换为概念图来实现自动批改作为应用实验。实验结果与教师批改结果比较大体符合。

概念语义 第9篇

随着信息技术和Internet的快速发展,互联网上的文本数量呈指数级增长。在海量性、多样性和动态变化的知识库中获取所需的信息是一项具有挑战性的任务。传统的信息检索主要使用关键词字符匹配和全文检索技术,借助索引、目录和关键词等方法实现[1,2],但在许多情况下不能很好的表达用户的查询请求,从而导致检索结果的低相关性。针对这个问题,研究者们把查询扩展[3]引入到信息检索。

查询扩展(Query Expansion)[4]指的是利用计算机语言学、信息学等多种技术,把与查询相关的词语或者与查询语义相关联的概念以逻辑的方式添加到原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的查全率和查准率,解决信息检索领域长期困扰的词不匹配问题,弥补用户查询信息不足的缺陷。

传统的查询扩展技术研究的主要是关键词查询扩展,目前采用方法主要有基于全局分析的查询扩展[5]、基于局部分析的查询扩展[6]、基于关联规则的查询扩展[7]和基于用户日志的查询扩展[8]。这些方法虽然在技术上有了很大的改进,却不能实质性地提高信息检索的性能。主要原因是以查询词为中心,机械式地字串符号匹配,忽略了查询语义的关联扩展,并通常缺乏领域知识,从而不能充分表达和扩展用户的查询意图,不能从根本上消除用户查询意图与检索结果之间的语义偏差和用户查询的歧义性问题。本文在综合查询扩展技术的基础上,提出了一种混合的语义查询扩展方法,结合概念和局部共现分析方法对扩展词进行两次筛选,使得扩展词与查询所蕴含的主题具有较强的语义相关性。

1 基于传统向量空间模型的检索方法

1.1 向量空间模型

向量空间模型(VSM)是由Salton[9]等人提出并发展起来的,在VSM中,将用户的查询请求和文档看成由相互独立的词条(t1,t2,…,tn)组成,根据词频tf和反词频idf对每个词在文档中的重要程度赋以一定的权值wi,构成文档向量和查询向量。从而将文本信息匹配的问题转化为向量空间中矢量匹配问题。

(1)计算特征词tk在文档di中的权值wi,k,目前最常用的估计公式是著名的TF-IDF公式:

wi,k=tfk,i×idfk=tfk,i×(log(N/nk)+1) (1)

其中tfk,i为特征词tk在文档di中的词频,N为文档集中文档的总数,nk代表在文档集中出现特征词tk的文档数目。

(2)设用户查询向量Q=(wq1,wq2,,wqn),被检索的文本向量为d=(wi1,wi2,,win),两者之间的相似度可以用向量的夹角的余弦距离来度量,计算公式为

sim(di,Q)=k=1nwik×wqkk=1nwik2k=1nwqk2(2)

1.2 算法步骤

步骤1:对文档集中的文档进行处理,表示成文档向量;

步骤2:当新的查询到来,对其进行处理,求的查询向量,如果与文本向量的长度不同,后面用零补齐;

步骤3:利用公式(2)计算查询向量和文本向量的相似度;

步骤4:根据相似度的大小进行排序,将相似度靠前的文档作为检索结果输出。

2 概念语义查询扩展和局部共现分析

2.1 概念语义查询扩展

2.1.1 语义查询扩展的涵义

如果存在两个查询Q1和Q2且Q1⊆Q2,其中Q1是基于概念集C1的,Q2是基于概念集C2的,并且C1和C2在语义上是相关的,那么称Q2是Q1的语义查询扩展[10]。语义概念查询扩展包括同义词扩展、语义蕴涵扩展、语义外延扩展和语义相关扩展。

2.1.2 概念语义空间的建立

语义概念查询扩展技术的关键问题是概念语义空间的建立。目前概念语义空间的表现形式包括概念分类(即一种概念描述的分层组织结构)、领域本体、概念语义网络、语义词典。

在文献[11,11,12,13]的基础上给出了一个自动构建概念语义空间的方法。基本思想是对领域语料库进行分析,人工设置同义概念关系,父概念和兄弟概念的关系模板,然后在语料库中提取符合上述模板的文档,对文档中的概念共现模型分析,通过相关度计算不同概念间的关系度,再经过阈值筛选和角色转换,得到各种类型的概念语义关系,最后经过优化调整建立概念语义空间。

2.1.3 候选扩展概念集的确定以及概念之间的相关度计算

从查询关键词出发,扩展与之相关的概念时,扩展出的词汇数会随扩展的层数增加而极剧增加。因此,必须控制扩展的深度和广度。引入参数Lλ1控制候选概念集中概念的数量。

设用户的查询为S,经分词和去掉停用词后表示为Q={q1,q2,,qn},wi,wj为概念语义空间中的任意两概念,定义Lwi表示wi在概念语义空间中的深度,L表示qi在概念语义空间中深度的最大值,则有L=max{Lq1,Lq2,,Lqn},用L+2表示扩展的最大深度。wiwj之间的相关度由它们在概念空间中的路径长度来衡量,其计算公式如下:

Ri,j(wi,wj)=1len(wi,wj)+α(3)

其中len(wi,wj)为wiwj的最短路径长度,α为0-1之间的可变参数。为了便于理解现以图1所示的层次结构的概念语义空间为例进行说明,设查询向量Q=(q1,q2,q3,q4,q5)。

在图1所示的概念语义空间中,设LF=0,则Lq1=2,Lq2=3,Lq3=5,Lq4=1,Lq5=6,

L=max(q1,q2,q3,q4,q5)=6,len(A11,B21)=3。

本文通过计算qi与概念空间中概念wj的相关度Rj,i(wj,qi),把满足条件Rj,i(wj,qi)>λ1LwjL+2的概念wj作为qi的候选扩展概念,所有满足条件的候选扩展概念组成的集合称为qi候选扩展概念集QEi

2.2 共现分析

两个词项在一定的文本窗口范围内共同出现,我们称之为共现。在大规模语料库中,两个词经常共现,则认为这两个词在语义上是相互关联的,且共现频率越高,其语义关联度就越强[14,15]。因此我们可通过词的共现分析寻找一个评估函数f(w,q)对候选扩展概念进行评估、筛选得到最终的查询扩展词。本文将文档窗口定义为一篇文档的范围。

采用如下的公式来计算任意两个词项w和q在文档D中共现频度cf(w,q|D):

cf(w,q|D)=log(tf(w|D)+1.0)×log(tf(q|D)+1.0) (4)

其中tf(.|D)表示一个词项或概念在文档D中的出现次数。

定义概念w和查询词q在局部文档集S中的共现度,cf(w,q|S)为wqS中所有文档内的平均共现频度。

cf(w,q|S)=DScf(w,q|D)n(5)

其中,n为同时出现wq的文档总数。

事实上,即使在同一窗口单元中,词之间的共现程度不一定相同。通过观察、分析和一些尝试发现,词语-概念堆在文档中出现的物理位置越近,它们的共现程度越强。因此本文对共现频度进行改进,设cwj,i(wj,qi)表示查询词语qi和扩展概念wj的共现度权值,则有:

cwj,i(wj,qi)=cf(wj,qi|S)log(space(wj,qi)+2.0)(6)

其中space(qi,wj)是指在所有窗口中,词qiwj的平均相距的字词数。log(space(qi,wj)+2.0) 表示当qi,wj是相邻两个词时,分母也不会出现0或负值。

综合考虑候选扩展词在概念语义扩展和共现分析时的共现权重,则扩展词的评估函数为:

f(wj,qi)=Rj,i(wj,qi)×k=1ncwj,k(wj,qk)(7)

2.3 基于共现分析和概念的语义查询扩展的算法

设用户的某次查询为s,经过分词和去掉停用词后表示为Q={q1,q2,,qn}。其查询扩展的算法如下:

步骤1:利用概念语义空间的建立方法,构建一个比较简单的概念语义空间;

步骤2:在概念语义空间中找到qi;根据是否有联通路径来找到与qi相关的概念集seti,利用公式(3)计算seti中的每个概念seti,jqi的相似度Rj,i(seti,j,qi),若Rj,i(seti,j,qi)>λ1且Lseti,jL+2,则把seti,j添加到qi的候选扩展概念集QEi中;

步骤3:重复步骤2,直到Q中所有查询词的候选扩展概念集找到执行步骤4;

步骤4:把Q中每个概念qiQEi候选扩展概念以逻辑或组合,利用检索引擎检索出初始结果;

步骤5:选择初检结果中的前k篇文章构成文档集S,利用局部共现分析方法构建Q-QEi共现矩阵如公式(8)所示,其中每一个元素值利用公式(6)进行计算;

步骤6:利用公式(7)对候选扩展词进行二次筛选,选取满足条件f(wj,qi)>λ2的候选扩展词作为qi的扩展词;

步骤7:把Q中每个查询词qiqi的扩展词以逻辑或组合进行二次检索;

步骤8:输出检索结果。

2 实验结果与分析

实验数据采用从网上下载的有关计算机领域的2802篇文档。根据语义空间的自动生成算法建立一个语义空间。将文本数据经过处理后形成高维词空间向量,利用信息增益的方法进行特征降维,向量中每个词的权重根据TF*IDF公式计算。

实验环境为CPU Pentium 1.6G,512MB内存,windows XP操作系统。

采用标准的查全率、查准率和F测试值为主要的评价指标,并以Pr@20作为辅助性的评价标准。

查全率(Recall)是检索到的相关文档数与所有满足条件的文档数的比率。

查全率=(9)

查准率(Precision)是指检索到的相关文档数与检索到的全部文档的比率。

查准率=(10)

查全率和查准率反映了检索质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评价指标:F-测试值(F-measure)。

F-测试值=2××+(11)

Pr@n指的是针对某个查询Q,在检索出前n篇文档的查准率。

Pr@n=nn(12)

表1给出了对文档集采用传统向量空间模型检索算法、基于共现分析的查询扩展方法和本文方法三种方法分别进行了20次查询后的平均检索性能。

从表中可以看出,与未进行查询扩展的向量空间模型检索算法进行比较,采用查询扩展的两种方法的检索性能都有显著的提高。但相比之下,本文的方法提高幅度最为明显,主要原因是传统的检索方法是基于关键词的检索,只能返回与关键词匹配的检索结果,因此只检索出部分相关文档,从而造成查全率和查准率低的现象。本文不仅对查询进行扩展,并对扩展词进行了分析,很大程度上提高了检索性能。

3 结束语

本文提出了一种基于共现分析和概念语义的查询扩展方法,从概念语义层次上实现查询扩展,并结合词共现分析方法,对查询扩展词进行了两次筛选,使得所选的扩展词语初始查询所表征的主题或概念共存更好的相关性。在此基础上,本文构造了新的扩展词评估函数。实验结果表明,本文提出的方法更有助于提高查询效果。

上一篇:意外下一篇:智力支持论文