基于本体概念的相似度

2024-07-02

基于本体概念的相似度(精选6篇)

基于本体概念的相似度 第1篇

语义网[3],现有WWW的扩展与延伸,给万维网上的文档添加能够被计算机所理解的语义,语义网技术在搜索引擎方面的应用已经很广泛。文献[4-5]利用本体关系进行推导,将用户的输入关键字与本体库相映射,以发掘与用户输入相关的概念。但这样可能会导致生成错误的关键字映射到本体实例,而且正确的映射也会疏漏,这是对用户的查询目的无法确定造成的。Word Net是由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的,其最终目的是要建立英语词汇及其词法关系的数据库。美国Georgia大学开发的语义网本体库———语义网评价本体(SWETO),包括实例811819个,实例间关系1545320个。本文提出一种查询优化方法,该方法先对关键词的语法关系进行分析扩展,然后利用语义相似度对扩展的词汇进行收敛优化,以提高查询关键字到本体概念映射的准确性和完整率,以达到协助搜索引擎,有效推测用户查询意图的目的,优化用户的查询输入。

1 基于本体概念语义相似度的查询优化方法

1.1 本体概念语义相似度

语义相似度是指概念在意义上的相符合程度,在语义树中通过概念的语义距离计算语义相似度,概念的语义距离与语义相似度成反比。设有概念C1和C2,其语义相似度计算方法为:

其中,Dep(Ci)为概念节点Ci在语义树中的深度,Dist(C1,C2)为连接这两个概念节点的最短路径上几条边的数量总和,t是可调节的参数。

1.2 基于本体概念语义相似度的查询优化方法

这里,我们提出较合理的方法,就是利用本体概念语义相似度与词法关联的分析相结合,以此使查询过程得到优化。利用Word Net,我们能够得到语法关系密切的词语,与关键词之间的本体概念语义相似度是不同的,相似度越高的本体实例(采用关键字匹配的映射方法),其本体概念正确代表用户的目的的可能性也越大。

基于这一思想,我们设计了基于本体概念语义相似度的查询优化方法。

(1)将用户输入的关键词保存在集合N={n1,n2,…,nk},k表示关键词有多少个,ni表示第i个关键词。

(2)利用Word Net,我们可以得到每个关键词的若干同义词,这些同义词将形成一个集合Si,Si={Si1,Si2,…,Sim},记元素Sij∈Si,Rij为Sij和ni之间的词法关联的程度,显然,ni与其自身的词法关联的程度为1。其中同义词的个数用m代表,ni∈Si。

(3)找出映射。找出本体库中有哪些本体与同义词集合中的元素相对应。找到后,挑出这些本体形成集合Ti={Ti1,Ti2,…,Tif},因此Ti表示在Si中的词语相应的本体实例,记元素Tij∈Ti的词法相关度为R'ij,表示对应到它的Si中元素的词法相关。

(4)利用公式找出Tij,Tij∈Ti,Tij表示与ni在本体库中对应的本体实例概念语义相似度最高的本体。

通过这样的方式,用户可以对关键词进行查询的优化扩展。

2 查询优化系统实现

实现的查询优化系统分为用户接口、输入分析、本体资源库和查询处理4个部分。

用户接口,用户通过此接口输入查询请求。

输入分析,利用Word Net对用户输入的查询关键词进行分析,得出各个关键词对应的近义词。

本体资源库,该接口的内部实现采用sweto本体库,本模块将其转化为内部的数据结构,主要用于管理和维护语义优化依赖的本体知识。

查询处理,可以实现检索本体网络中两个实例之间的语义相似度,评价1组本体序列的语义相似值,在得出语义相似程度评价结果的基础上,对用户输入检索的内容进行优化。

3 实验结果与分析

为了检验该优化查询方法是否有效,我们以查询关于杂志的资料进行测试。规定描述该杂志的情况,可以使用该杂志的杂志社或该杂志作者的一部分,也可以使用一部分该杂志的名字。实验需要用到的数据,可以在本体库中,以关键字匹配的方式找到对应的杂志的作者及杂志的杂志社。

利用优化查询系统对用户的查询输入实现优化以后,使用谷歌搜索优化前后的查询关键字来进行比较。实验采用不同的杂志名称和杂志作者名、杂志名称和杂志社名组合来当作输入对象,实验进行了50次。搜索到的项目条中出现了用户查询的目标,则该项目条命中。实验结果见表1:

通过实验结果的表一可以看出,如果不对用户输入的关键字进行处理,只采用简单的映射,正确率平均计算只有20.5%,而利用本体库对查询进行优化之后,映射成功率提升将近四倍,高达92%。这样的实验结果表明,在完整的本体库支持的前提下,采用本文提出的优化查询方法,可以对用户输入的查询关键字实现有效地优化。

4 结论

本文将本体概念语义相似度的分析与词法关系的分析相融合,提出了一种查询优化方法,并且设计了相应的优化查询系统。通过实验证明,该方法能够对用户输入的查询关键字做到有效优化,以解决传统搜索引擎所遇到的较低查准率的问题。

参考文献

[1]Mei K,Koichi T.Information retrieval on the Web[J].ACM Computing Surveys,2000,32(2):144-173.

[2]Andrei B.A taxonomy of Web search[J].ACM SIGIR Forum,2004,38(1):39-45.

[3]Berners Lee T,Hendler J,Lassila O.The semantic Web[J].Scientific American,2001,284(5):34-43.

[4]Rocha C,Schwabe D.A hybrid approach for searching in the semanticWeb[C].Proceedings of the13th international conference on WWW New York:ACM Press,2004:374-383.

改进的本体中概念相似度计算方法 第2篇

随着本体的逐渐增加,本体的异构问题也逐渐显露出来,解决问题的方法就是本体的映射,本体映射一般分信息本体化、相似性提取、语义映射、映射执行和映射后处理过程共五步来进行。相似性提取是本体映射的一个重要步骤,它主要是进行概念语义相似度的计算,产生一个相似矩阵。

当今各个研究机构也从不同角度提出了概念语义相似度计算的方法:文献[1]提出了基于信息内容的语义相似度计算模型;文献[2]利用Word Net的树状层次体系结构中概念间的距离计算语义相似度,这种计算模型简单、直观;文献[3]指出了利用概念间的相同和不同属性计算语义相似度,这种计算方法可以很好的模拟人们平时对现实世界中事物之间的认识和辨别。

上述三种语义相似度计算模型都采用单一的概念相似度计算方法,不利于提高计算结果的精度。因此笔者结合实际情况,综合考虑概念的距离语义相似度和属性语义相似度计算,提出了一种更全面的概念相似度计算方法。

1 基本概念

1.1 本体

本体源于哲学概念,后被德国卡尔斯鲁厄大学的R.Studer定义为:一个本体是一个概念明确的、形式化的规范说明。基于语言记号学的观点,本体的体系结构可以表示成如下的五元结构体系的公式[4](概念集合C,关系集合R,概念等级体系HC,函数rel,公理集AO):O:={C,R,HC,rel,AO}。

1.2 概念

概念是客观世界中任何事物的抽象描述,形式上,概念定义为一个四元组[5](概念的标示符Id,语言词汇L,属性集合P,实例集合IC):C:={Id,L,P,IC}。

2 改进的概念语义相似度算法

通过以上对本体和概念的分析可知,影响概念的语义相似度计算结果的因素并不单一,在本文中,将综合考虑距离的语义相似度和属性的语义相似度,最终计算出比较精确的语义相似度值。

2.1 概念的距离语义相似度算法

最普遍的相似度计算方法是距离语义相似度计算。文献[6]给出了词语距离与词语相似度之间的关系:

(1)两个词语距离为0时,其相似度为1;

(2)两个词语距离为无穷大时,其相似度为0;

(3)两个词语的距离越大,其相似度越小(单调下降)。

对于两个词语C1和C2,记其相似度为Sim(C1,C2),其词语距离为Dis(C1,C2),可以定义一个满足以上条件的简单转换公式(α是一个可调参数,指相似度为0.5时的词语距离值):

根据以上的计算方法,综合考虑概念距离与其所处深度对概念相似度的影响,对以上计算公式进行了改进,同时我们在此将有向边的距离看成同等重要,都看成1。从而得出,领域本体中两个概念C1和C2之间的距离语义相似度为:

其中,DSim(C1,C2)是概念C1和C2的距离语义相似度;Dep(C1)和Dep(C2)分别是概念C1和C2在本体树中所处的深度,根节点的深度记为1;Dis(C1,C2)是概念C1和C2在本体树中的最短路径的有向边的数量;ODep是本体树的最大深度。下面对以上公式进行验证:

(1)两个词语的距离越大,其相似度越小。

如图1所示,对该本体树进行分析。Dep(C6)=3,Dep(C7)=3,Dep(C8)=3,Dis(C6,C7)=2,Dis(C6,C8)=4,ODep=4,可见,Dis(C6,C8)>Dis(C6,C7),利用公式计算,可得DSim(C6,C8)=3×a/(16+4×a),DSim(C6,C7)=3×a/(8+4×a),3×a/(16+4×a)<3×a/(8+4×a)。

(2)在同等概念距离的情况下,处于本体树中离根较远的概念间的相似度要比离根近的概念间相似度大。

对图1的本体树进行分析,Dis(C6,C7)=2,Dis(C12,C13)=2,概念C6和C7间的概念距离与C12和C13间的距离相等,但DSim(C12,C13)=a/(2+a)>DSim(C6,C7)=3×a/(8+2×a))。

2.2 概念属性语义相似度算法

在本体中概念的属性是描述概念的一个重要元素,如果两个概念具有相同属性,则这两个概念可能相似,因此在此讨论一下概念的属性语义相似度。属性一般可分为两大类,数据类型属性和实例类型,数据类型属性一般包括文本、数字和日期。数据类型属性的计算方法比较简单,可以根据数据类型匹配表、数据的取值范围或字符串匹配进行相似度的确定。本文主要讨论概念间的实例类型属性的相似度计算。

2.2.1 数据类型属性语义相似度算法

文献[7]提供了一种关于数据类型属性语义相似度计算方法:

步骤1将概念C1的所有属性按类型分类,这样概念C1的所有属性按照类型被分为若干个属性集合;

步骤2同步骤1,构造概念C2的属性集合;

步骤3为概念C1、C2各类型的属性构造语义相似度矩阵Simtype(type是指某一种属性类型),利用公式(2)计算相似度;

步骤4遍历矩阵取得最大相似度,将其所属的行和列删除,在余下的矩阵中继续重复执行直到矩阵为空,得到最大相似度序列;

步骤5按属性类型求概念的属性语义相似度平均值Sim Atype(C1,C2)。

对于数据类型属性,可以直接使用该方法进行属性相似度计算,最后对所有数据类型属性的语义相似度加权平均,求得数据类型属性的语义相似度平均值Sim AD(C1,C2)。

2.2.2 实例类型语义相似度算法

实例类型结构比较复杂,它在本体中与其他的概念相关联,具有跟概念一样的约束和属性集。因此,笔者在此将实例类属性语义相似度看成是对该实例关联的概念的语义相似度的计算。

根据步骤1和步骤2,求出概念C1、概念C2的实例类型属性集合分别为A={a1,a2,…,am}(m是实例属性集合A中实例的个数)、B={b1,b2,…,bn}(n是实例属性集合B中实例的个数)。概念C1的实例属性ai(1≤i≤m)所相关的概念为C1i,概念C2的实例属性bj(1≤j≤n)所相关的概念为C2j。

对于以上算法的步骤3进行改进,在相似度矩阵中存的是概念所具有的实例类型属性相关的概念的语义相似度,概念C1i和概念C2j的语义相似度作为概念C1的实例类型属性ai和概念C2的实例类型属性bj的相似度,记为Simij(ai,bj)得到相似度矩阵:

再根据步骤4的方法得到最大相似度序列S1,S2,…,St(t=min(m,n))。

然后综合得到实例类型属性的平均语义相似度:其中Wi为各相似度的权重,W1+W2+…+Wt=1。

最后,综合考虑数据类型语义相似度和实例语义相似度,采用加权平均方法求所有类型属性的语义相似度平均值:

2.3 总体语义相似度

综合距离语义相似度DSim(C1,C2)和属性语义相似度PSim(C1,C2),总体语义相似度:

3 实例测试与分析

本文实验数据是http://lsdis.cs.uga.edu/projects/semdis/opus中提供的本体,该本体主要描述了文档的分类和相关信息。下面以概念Article_in_Proceedings和Book_Chapter(等同于Article_in_Book)的语义相似度计算为例,测试一下本文提出的方法,限于篇幅原因,本文将不列出本体描述语句。

3.1 概念的距离语义相似度计算

在此,令C1=Article_in_Procedings,C2=Book_Chapter。通过对该本体的查找,得到Dep(C1)=3,Dep(C2)=3,Dis(C1,C2)=2,在此取α=10,DSim(C1,C2)=0.63。

3.2 概念的属性语义相似度计算

3.2.1 数据类型属性语义相似度计算

两个概念中均只有String类型,构造语义相似度矩阵,然后取得平均值Sim Astring=0.89,因此Sim AD(C1,C2)=0.89。

3.2.2 实例类型属性语义相似度计算

构造两个概念的语义相似度矩阵,取得平均值Sim AO(C1,C2)=0.91。

综合数据类型属性语义相似度Sim AD(C1,C2)和实例类型属性语义相似度Sim AO(C1,C2),总体属性语义相似度:

3.3 结果与分析

综合距离语义相似度DSim(C1,C2)和属性语义相似度PSim(C1,C2),总体语义相似度:Sim(C1,C2)=0.77。

采用Wu-Palmer概念语义相似度算法计算他们的相似度是0.67,根据启发规则Article_in_Proceedings和Book_Chapter应该具有较高的相似度,通过本文的方法提高了语义相似度计算的精确度。

4 总结

本文根据本体和概念的结构特点,综合考虑了影响概念语义相似度计算的多个因素,将距离语义相似度计算方法和属性语义相似度计算方法相结合,提出了综合语义相似度算法,提高了语义相似度计算的准确度,从而可以提高本体映射精确度。

虽然该计算方式使相似度的计算更加完善,但还有不足。可以影响概念语义相似度计算的因素很多,本文仅考虑到距离和属性,还需要提出更加全面的计算方法,而且应该试用一些方法来对属性的优先级进行确定;另外,可调参数α的设定和各步权值还只是根据经验来给定,有一定的误差。所以应该对权值的设定做进一步地研究。

参考文献

[1]Dekang Lin.An Information-Theoretic Definition of Similary[C]//Pro-ceedings of the Fifteenth International Conference on Machine Learn-ing.1998:296304.

[2]Budanitsky A,Hirst G.Evaluating WorldNet-based measures of Lexi-cal Semantic Relatedness[J].Computational Linguistics,2004,1(1):149.

[3]Tversky A.Features of similarity[J].Psychological Review,1977,84(4):327352.

[4]Alexander Maeche.Ontology Learning for the Semantic Web[M].Norwell:Kluwer Academic Publishers,2002:1820.

[5]A H Doan.Learning to map between structured representation of data[D].University of Washington,2002.

[6]刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北,2002,5976.

基于本体概念的相似度 第3篇

从域依赖的角度来看, 那些能够提供精确结果的方法, 多数依赖于大的普适性的知识集例如Wordnet或者标记集Sem Cor。然而, 这些方法应用在医疗术语相似度比较中结果准确度不高, 因为这些知识模型中仅覆盖了医疗领域有限的域词。针对医疗领域所开发的本体Me SH、UMLS、SNOMED CT提供了准确的医疗术语分类结构。其概念覆盖及概念间关系的建立各有所不同, 因此以不同本体为知识源计算所得相似度不尽相同。很多学者针以某个本体为知识集, 将经典的相似度计算方法用于医疗术语的相似性评估, 并提出特定环境下对算法进行改进措施。

本文选定基于距离的LCH方法, 依据Pederson基准, 对比其在MESH、SNOMEDCT、UMLS为知识源时的计算值, 并对计算结果进行分析和解释。

1 医疗知识本体

本体是用来描述某个领域甚至更广范围内的概念以及概念之间的联系, 使得这些概念和联系在共享的范围内有着明确惟一的定义, 达成一种共识, 这样人机就可以进行交流。医疗本体给出医疗领域实体概念及相互关系、领域话动以及该领域所具有的特性和规律的一种形式化描述。通过概念分类与语义关联建设的手段实现术语的标准化。现在常用的医疗本体主要有Me SH、UMLS、SNOMED CT。SNOMED CT在其特定概念分类理论的指导下, 依据现代西医学对疾病的认识将与临床诊疗相关的概念切割成若干部分, 形成术语集的顶级概念分类框架, 如临床所见、操作、药物等;通过纵向的上下位语义关系“IS_A”将每个顶级分类向下进行逐层的亚类设定, 形成了以某一种特征属性为核心的概念层级体系。概念“SNOMED CT概念”被称作“根概念”, 它在全部概念中处于最高级别, 各顶级概念及其下属的亚类概念都是SNOMED CT概念的亚类。由于概念层级体系内具有向下的传递性, 因此在概念的粒度逐层细化的同时其特殊性逐渐增强[2]。

Me SH《医学主题词表》由美国国立医学图书馆 (NLM) 编辑出版, 从学科分类角度组织叙词。树形结构表从学科分类的角度, 按Me SH收录的主题词的学科属性分类编排而成。它通过展示主题词在学科体系中的逻辑关系, 纵向反映主题词之间的概念等级关系, 逐级分类形成树形结构表[3]。

UMLS是美国国立医学图书馆 (NLM) 自1986年起研究和开发的一体化医学语言系统。其中超级叙词表是生物医学概念、术语、词汇及其涵义、等级范畴的广泛集成, 从概念覆盖范围上, 其包含SNOMED CT和Me SH的所有词汇, 但在集成过程中其对概念间关系进行了一定程度的简化。

2 LCH语义相似度算法

语义相似度计算以从医疗本体或者医疗语料库中抽取出的语义特征为基础进行估算。其中基于距离的方法将两个术语间的相似程度, 定义为本体分类结构中连接两个术语的路径长度的逆, 具体计算公式为:

在具体计算时, 通常将连接两个术语的最短路径作为计算的关键路径。LCH算法, 认为术语在分类结构中所处的深度不同, 其代表的相似程度也大不相同, 因此在计算中引入深度这一参数, 并将某一概念的深度定义为该节点至根节点间路径上的节点个数。通常情况下, LCH定义为:

增减系数本身, 并不影响两组数值之间的斯皮尔曼相关程度, 因此将LCH的结果值统一量纲后, 其计算公式为:

3 实验

考虑到UMLS在集成词汇表时对很多概念及概念之间的关系进行了泛化, 为分析这种泛化对相似度评估结果带来的影响, 本实验选定SNOMED CT、Me SH、SNOMEDCT-UMLS及Me SH-UMLS四种知识本体, 构建概念图, 其2012年12月的版本中所包含的概念和关系数如表1所示:

针对医疗领域术语相似度评估过程中缺乏统一的比较标准等问题, Pederson联合梅奥诊所的9名医疗编码员和3名医生以1-4为域值对30个医学疾病术语进行相似度打分 (其中1表示不相似, 4表示完全相似) , 最终形成了Pederson基准。其中、SNOMED CT29涵盖了其中的29个概念术语;而Me SH涵盖了26个概念术语对。

本实验利用VC++实现了LCH算法, 对比在采用上述四种本体构建概念图时, 算法的计算结果与Pederson基准中编码员打分、医生打分的相关程度。其具体结果值如下表2所示:

4 结论

通过表2的对比分析结果可以看出, 以SNOMED CT为知识源构建概念图所得计算结果的评估相关度最高, 该结果通过表1可以看出其概念图中所蕴含的关系最丰富, 提供了更充分的概念间联系的语义证据。总体来看, 经UMLS集成泛化后的概念图, 其所蕴含概念间关系粒度变粗, 语义证据更不清晰, 因此得到的相似度结果值更低。

基于分类结构算法的优点在于他们只利用本体作为背景知识, 不需要带有域数据的全集。然而, 主要问题在于过度依赖于本体中的完整、统一和语义连接的覆盖。而且, 因为多数方法仅用最小距离估算相似程度, 可能忽略掉了本题中蕴含的给定概念对的大量分类知识 (例如普遍和非普遍意义上的前驱全集) 。结果, 该方法与专家打分的相关度被其他应用额外语义证据 (从域语料库中推导出来的信息) 的方法所超过。同时, 值得注意的是两个概念之间的is-a关系的出现给出语义关系的存在, 但不说明他们语义相似度的程度因为所有的关系 (连接) 有相同的距离, 结果代表相同的距离。

参考文献

[1]Pedersen, T., et al., Measures of semantic similarity and relatedness in the biomedical domain.Journal of biomedical informatics, 2007.40 (3) :p.288-299.

[2]郭玉峰, 刘保延, 周雪忠.SNOMED CT 2007的顶级概念分类详解[J].中华中医药学刊, 2008, 26 (9) :1928-1932

基于本体概念的相似度 第4篇

0.1本体

本体的概念最初来源于哲学领域,用来描述事物的本质[1],即是关于现实世界中的对象、属性、事件、过程和关系的分类和结构。随着计算机科学的发展,本体相继被引入人工智能领域、数据库管理系统领域和软件工程当中。在计算机领域中,本体是“共享概念模型的明确的形式化规范说明”[2]。其中:“概念模型”是指识别客观世界中的现象的相关概念并对这些相关概念进行抽象而得到的模型;“明确”是指概念和概念的使用约束要有清晰和无歧义的定义;“形式化”是指本体可以被计算机理解和处理;“共享”是指本体反映的是共同认可的知识,被相关领域所公认。

本体精确地表示了相关领域中被公认的和共享的知识,是信息系统中解决语义互操作性的重要方法。本体在语义Web中具有核心的地位,是解决语义层次上Web信息共享和交换的基础。本体已经在人工智能、知识表示、数据集成、语义Web、信息检索等研究领域得到了日益广泛的应用。

0.2本体映射

本体已经应用于许多领域,但是由于不同的主体总是为满足自己的实际需要来构建自己的本体,同时随着自己需求的变化本体也要不断的演变,这些都导致了同一领域多个本体的存在,而且构建过程中缺乏标准化就会阻碍主体之间的通信和协作,即通常所说的“互操作”问题。

为了达到主体之间的互操作,就必须解决本体之间的异构问题。一般可采用三种方法:(1)本体间建立包含关系;(2)本体间建立映射关系;(3)对本体进行合并,生成一个完整的公共本体,即本体集成。在这三种方法中,本体映射是最佳选择。所谓本体映射,是指在不改变原有本体的基础上,通过语义关联建立本体间的对应关系,以便双方能使用通用的接口并对同一事物达成共同理解。

0.3本体映射技术

不失一般性,这里仅仅讨论简单的一对一映射,即对于给定的两个本体O1和O2,对于O1上的一个实体,在O2上找到与其蕴含有相同或相近语义的实体,这样就建立起本体O1和O2的映射,这些实体可能是本体中的概念、属性、关系以及实例等[3]。

这种一对一的本体映射技术具体可分为:

(1)类映射:源本体类名和目标本体类名的映射;

(2)属性映射:源本体一系列属性值与目标本体一系列属性的值进行映射,源本体属性名和目标本体属性名的映射;

(3)关系映射:源本体关系名和目标本体关系名的映射;

(4)复合映射:复合源本体表达式与复合目标本体表达式之间的映射。

1本体关系映射中相似度的有关计算

当前很多研究机构已经提出了很多种本体映射技术,如FCA-Merge[4]、GLUE[5]、COMA[6]、编辑距离法[7]等,然而这些技术大多集中于研究本体中概念的映射或者概念间属性的映射。但是对于一些比较复杂的应用,仅仅依靠概念间或概念间属性的映射都显得不尽充分,例如通过指定的关系约束条件来检索实例,如要检索“拥有子公司并且和微软有业务往来的企业”时,就需要发现本体中概念间的关系映射。

因此以下将对本体映射中概念之间的关系进行研究,并提出了基于本体的关系映射方法中相似度的计算。

1.1本体基本概念间关系名称、类型相似度的一般计算

基于关系计算概念相似度[8],本体中的概念之间都存在一定的关系,概念的关系对概念的描述也具有重要的作用。关系有关系名称、关系类型、数据类型等要素,但是判断两个关系是否相似主要首先从关系名称、关系类型这两个要素的相似度进行直观字符串考虑,可确定两个本体间的一般相似性。

设概念A的关系为r,概念B的关系为s,两个关系间的相似度记为R(r,s)。那么A与B概念之间关系相似度Rsiminstance(ri,sj)计算公式如下:

其中,W1、W2分别代表关系名称、类型对应的权重,并且可视为:W1+W2=1

1.2本体概念实例数据相似度计算

由于关系名称、关系类型本身都是字符串,因此可以采用字符串相似度计算方法进行判定。对于关系的实例数据,也可以采用基于实例的方法进行计算。为此把相似度的定义扩展到关系相似度,并用基于实例的方法来计算两个关系基于实例的相似度[9]。例如两个关系ri和sj,它们之间的相似度为RSim(ri,sj),即RSim(ri,sj)=P(ri∩sj)/P(ri∪sj)。其中,ri是本体O1中的关系,ri哿A1×A2…×AM,AK(k=1,…,m)是本体O1中的概念;sj是本体O2中的关系,sj哿B1×B2…×BM,BK(k=1,…,n)是本体O2中的概念。当m和n都等于2时,ri和sj都是一个二元关系。概念中的一个关系会连接两个概念中的所有实例。对于关系ri(A1,B1)和sj(A2,B2),利用它们对应的概念实例进行相似度计算。

设概念A和概念B之间共计算出L个RSim(ri,sj),并设置相应的权值wlrelation。概念A和概念B基于关系的相似度计算公式为:

1.3本体属性相似度计算

本体概念的属性对本体滋生的描述是极其重要的,在一些情况下,属性可以被视为概念的一部分,例如:概念A和B属性相同,那么通常认为A和B两个概念相同。在这里引入信息增益作为概念属性相似度的计算。

1.3.1信息增益(informationgain)用来度量选择测试属性[10]

这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,也就是对概念实例的分类能最有效。因此,可以利用属性的信息增益来评价属性对概念所起的作用。

1.3.2信息增益的计算过程

信息增益可以按以下各步来计算:

(1)设S是s个数据样本的集合,Si是类li中的样本数。假定类标号属性具有m个不同值,定义m个不同类li(i=1,…,m)。一个给定的样本分类所需要的期望信息由公式(3)计算给出:

其中,P是任意样本属于li的概率,并用si/s估计。

(2)设属性A具有u个不同值a1,a2,…av,可以用属性A将S划分为v个子集{S1,S2,…S0},其中Sj包含S中在A上具有值aj的样本。设sij是子集Sj中类li的样本数,由A划分成子集的熵(entropy)或期望信息由公式(4)计算给出:

其中,项充当第j个子集的权,并且等于子集Sj(即A的值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。对于给定的子集Sj所需要的期望信息由公式(5)计算给出:

其中,pij=sij/│sj│是sj中的样本属于类li的概率。

lS,l

(3)最后属性A的信息增益由公式(6)给出:

也就是说,Gain(A)是由属性A的值而导致的熵的期望压缩。

通过以上各步计算可获得概念每个属性的信息增益,并根据各值的情况设定相应的属性权值wkattribute。因此属性相似度计算公式可表示为:

信息增益大的属性,权值就相应的大。对于一个概念对中的两个概念来说,两个概念的信息增益最大的属性可能相似,也可能不相似。若两个属性不相似,则此时就同时考虑这两个属性,并把它们的权值设为相同。

1.4合并相似度

为了最终获得本体间最大相似度,可以把基于实例、属性、关系计算得到的概念相似度进行合并,从而得到最后的概念相似度Sim(A,B)[11],计算公式如下:

其中,winstance+wattribute+wrelation=1,w权值的具体设置根据具体环境由用户确定。

2结束语

以上对本体关系映射中概念的实例、属性、关系相似度分别进行计算,根据每种相似度计算的结果进行合并从而由公式(8)计算出Sim(A,B),使得相似度的计算更加全面、更为准确。当然,在计算过程中各个权值的设定通常还是由经验给定,有一定的误差是必然。因此,在今后的研究中对权值的设定需要进一步的探索,也可通过神经网络学习技术进行修正。总之,通过与概念映射和概念间的属性映射的集成,尽可能的增加启发信息,提高本体映射方法的准确率,以达到更好的映射效果。

参考文献

[1]A Kivela.E Hyvonen.Ontological theories for the Semantic Web[M].Helsinki:HIIT Publica-tions,2002:111~l36.

[2]Studer R,Benjamins V R,Fensel D.Knowledgeengineering:principles and methods[J].Data and Knowledge Engineering,1998,25(122):161~197.

[3]Su X.A text categorization perspective for ontology mapping[R].Norway:Norwegian University of Science and Technology,2002.

[4]G..Stomme,A.Maedche.Ontology Merging for Federated Ontologies on the Semantic Web[C].In Proceeding of the International Workshop for Foun-dations of Models for Information Integration(FMI-I-2001),Viterbo,Italy,2001.

[5]Doan,J Madhavan.P Domingea,et a1.Ontology Matching:A Machine Learning Approach.In:S Staab,R Studer(eds)[J].Handbook on Ontolngies in Informa-tion Systems.Springer~Verlag.2003.

[6]H H Do.Erhard Rahm:COM A—A System for Flexible Combination of Schema Matching Approaches[C].In:Proc.of the28th Int1.Conf.OV Very Large Database.2002.610~621.

[7]Maedche A,Staab S.Measuring similarity be-tween ontologies[C].In:Proceedings of the European Conference on Knowledge Acquisition and Management EKAW-2002,2002.

[8]钟海荣,刘晓建,金士尧.HLA/RTI仿真框架中的坐标转换及其实现机制[J].计算机工程与应用,2002,38(24):13~16.

[9]聂朝晖,王英林.相似本体间属性映射方法的研究[J].计算机仿真,2006,(30):25-28.

[10]曹泽文,钱杰,张维明.一种综合的概念相似度计算方法[J].计算机科学,2006,9(38):174-175.

基于本体概念的相似度 第5篇

概念格

概念格,又称为Galois格,是德国数学家Wille R.于1982年首次提的。概念格是根据数据集中对象与属性之间的二元关系建立的一种概念层次结构,体现了概念之间的泛化和特化关系。

定义称(U,A,I)为一个形式背景,其中U={x1,x2,…,xn}为对象集,每个xi(i≤n)称为一个对象;A={a1,a2,…,am}为属性集,每个ai(i≤m)称为一个属性;I为U和A之间的二元关系,.若(x,a)∈I,则说x具有属性a,记为xIa。

若用1表示(x,a)∈I,用0表示,这样的形式背景就可以表示为只有0和1的表格。

对于形式背景(U,A,I),在对象集和属性集上分别定义运算:

,记,记{a}*为a*.若,,x*≠A,且,a*≠U则称该形式背景(U,A,I)是正则的。

定义2设(U,A,I)为形式背景。如果一个二元组(X,B)满足X*=B,且B*=X,则称(X,B)是一个形式概念,简称概念。其中X称为概念的外延,B称为概念的内涵。

概念格的每个节点是一个形式概念,由两部分组成:外延,即概念所覆盖的实例;内涵,即该概念所覆盖实例的共同特征。概念格可以图形化形式表示为有标号的线图,图中的节点表示一个概念,节点间的连线表示节点间存在泛化与特化关系,这种线图也称为Hasse图。它是概念格的可视化表示。

Word Net简介

WordNet是一个大型的英语词汇数据库,它来源于美国Princeton大学GeorgeA.Miller教授所主持的一项知识工程的项目。WordNet是按照词汇的语义关系来组织词汇,它使用同义词集合来表示概念,而这些概念集合则通过其中的某一特定的关系或者结构来相互连接,形成一个大型的树形结构。目前WordNet中的词汇数量已经近20万条,并且每月超千条的速度不断的增长。

WordNet之间存在着两种关系:语义关系和词汇关系。其中词汇关系指词形之间所存在的关系,语义关系指词义之间存在的关系。这些关系中比较重要的是同义关系、近似关系、反义关系、上下位关系和部分整体关系。

(1)同义关系是WordNet中最基本的关系,它属于词汇关系,是形成同义词集的基础。在WordNet中,同义关系并不是说两个词汇在任何语境下都可以相互交换的,而是指在某一特定的语境下,这两个词可以交换。

(2)反义关系和近似关系是指形容词集之间的关系,它是语义关系。在WordNet中形容词集的组织结构主要依靠反义关系和近似关系。形容词集是按簇(Cluster)组织的,每个簇都包含一个主节点(Head Synset),大多数的主节点都有一个或多个附属节点(Satellite Synset),主节点和附属节点间通过近似关系连接。其中每个主节点中至少存在一个词和另外一个簇中的主节点所包含的词间存在反义关系。

(3)上下位关系是WordNet中最重要的关系之一,是属于语义关系,指在动词集和名词集上的关系,基于这种关系形成了动词集和名词集上的层次结构。相对于下位词,上位词是一个通用术语,它表示由所有实例构成的一个类的整体;相对于上位词,下位词是一个具体术语,它表示类中的一个实例。

(4)部分整体关系是WordNet中另外一种重要的关系,和上下位关系一样同属语义关系,是指在名词集上的关系。在WordNet中,部分整体关系通常被分成三类:即对于任意给定的两个名词集S1和S2,若S1是整体,S2是部分,则S2或者是S1的成员,或者是构成S1的材料,或者是S1的组成部分。

一种基于WordNet的概念格间语义相似度计算方法

概念间的语义相似度计算

从语义上讲,概念格中的概念关系主要有分为以下四种:(1)part-of关系,概念间整体与部分的关系;(2)kind-of关系,概念间的超概念和子概念的关系,(3)instance-of关系,概念中的具体和抽象的关系,(4)attribute-of关系;概念与属性的关系。但是也有些学者将概念间的语义关系拓展到概念间的行为关系和因果关系等。

依据参照WordNet本体来判断概念之间的语义和结构关系,利用概念间的关系组成的图形结构,参考概念间的距离、密度、深度来计算各概念间的语义相似度来反映概念间的语义关系为后期的工作做准备。概念间的距离越近、深度越深,密度越大,那么相似度越大。同等情况之下,离根远的概念间的语义相似度和结构肯定要比离根近的概念要大而且结构越相似。因此本文相似度的计算将深度、密度和距离作为参考因素之一。

其中simd表示概念间距离的相似度计算,参数dist表示两个概念在WordNet中的距离,θ是一个阈值参数。距离越大,simd的值就越小,当两个概念间的距离超过θ时,那么就认为相似度为0。

其中simm表示概念间密度的相似度,NUM表示从当前两个概念往上找到最近的超概念,然后统计从超概念到当前两个概念间的所有概念的个数(含当前两个概念和超概念)。若当前两个概念与超概念间没有其他概念,则simm为1。

其中sims表示概念间深度的相似度计算,参数DeepTotal表示在WordNet整棵语义树中深度,参数deepth是两个概念的深度最深的那个值。深度越大,sims的值就越大。

综合考虑概念间的密度,深度和距离三个因素,根据(3)(4)(5)三个计算方式,基于WordNet中的两个概念的语义相似度为:

其中α+β+μ=1,α、β、μ分别为距离、密度和深度的权重。

概念与另外概念格语义相似度的计算

根据上述公式(3)(4)(5)(6)来计算两个概念格中的概念基于WordNet的语义相似度计算方法,本文可以计算得出概念格L1中的概念Ci到另外一个概念格L2中所有概念的相似度,找出相似度最大的语义相似度的候选概念结点,根据概念格的特性,可以找出与其最近的候选概念的子结点,层层迭代,可以得出概念Ci到概念格L2关系最紧密的一条路径Ri,那么该概念结点Ci到概念格L2的相似度计算如下:

其中n为路径Ri上各概念结点的个数,θi为路径Ri上各概念结点的权重。越是概念相似度越高的概念,两结点之间的语义关系或词汇关系越近,θi的值越大,其中∑θi=1。

概念格间的语义相似度计算

本文可以根据公式(7)得出的概念Ci到另外一个概念格L2中的相似度计算度,而后将此计算方法扩展到概念格L1中的所有概念结点,然后选取所有相似度的平均值作为概念格L1和L2的相似度。

其中n为概念格L1上概念结点的个数。

结束语

本文提出了一种基于WordNet的概念格间语义相似度计算方法,该方法利用WordNet中各词汇之间的结构关系,参考其各词汇间的距离、密度、深度来计算各概念间的语义相似度来反映概念间的语义关系,然后根据概念与其他的概念格中的语义相似度来计算两个概念格间的语义相似度,为以后的研究做准备。但是这种方法尚不完善,需进一步进行扩展与改进。

基于本体概念的相似度 第6篇

1 语义相似度

语义相似度是对语义相似性的定量表示,语义相似度计算是信息检索、数据挖掘、知识管理等领域的基本问题。在信息检索中,语义相似度能够更多的反映文本概念是否符合用户的查询要求,相似度越高,说明文本内容与用户的查询请求越接近。

刘群、李素建[1]基于实例的机器翻译,提出语义相似度就是两个不同上下文本中的本体概念,在不改变文本的句法及语义结构的情况下可以互相替换的程度。如果位于不同上下文本中的两个概念词语在不改变文本的句法及语义结构的情况下可以互相替换的可能性越大,则说明二者的相似度就越高,否则相似度就越低。

当两个语义概念元素x,y相似时,用sim(x,y)表示两者之间的相似度,形式上,相似度计算满足[2]:

1)相似度的值为[0,1]区间中的一个实数,即sim(x,y)∈[0,1];

2)如果两个对象是完全相似的,则相似度为1,即sim(x,y)=1当且仅当x=y;

3)如果两个对象没有任何共同特征,那么相似度为0,即sim(x,y)=0;

4)相似关系是对称的,即sim(x,y)=sim(y,x)。

2 概念语义树

使用层次化的树状结构来描述概念之间的逻辑关系,这种语义化的概念树为检索算法提供语义基础,在检索过程中不同的概念之间也有一定的相似性和相关性,因此需要处理概念树中祖孙节点、兄弟节点等不同类型的关系,我们考虑用概念间的相似度对其进行描述和量化,以提高检索的准确率为了计算概念相似度,作如下定义[3,4]:

定义1:在本体概念的树状层次结构中,如果概念A和概念B之间存在这样的关系:A是B的祖先,则称A和B为同支概念。概念A称为A和B的最近根概念,记为R(A,B),而A、B之间的距离dist(A,B)=dep(B)-dep(A),其中depth(C)为概念C在层次结构中的深度。如图1(a)所示。

定义2:在本体概念的树状层次结构中,如果概念A和概念B之间存在如下这样的关系:A不是B的祖先并且B也不是A的祖先,则称A和B为异支概念。如果概念R是A和B最近的共同祖先,并且是符合此条件的所有节点中距离概念树的根节点最远的一个,则称R为A和B的最近根概念,记为R(A,B),且A、B之间的距离为dist(A,B)=dist(B,R)+dist(A,R),如图1(b)所示。

定义3:概念C称为概念A和B的语义相关概念,当且仅当概念C满足如下的条件:当A,B为同支概念时,C在以A为根的子树中且不在以B为根的子树中;当A,B为异支概念时,C在以R为根的子树中且不在以A或B为根的子树中。

在计算语义相似度时,A和B各自的子概念数以及它们的语义相关概念数对相似度计算结果也有影响,当A,B为同支概念时,A的子概念由B的子概念和A,B的语义相关概念组成,前者所占的比重越大,则概念A,B的语义相似度越大;当A,B为异支概念时,R的子概念由A的子概念、B的子概念以及A,B的语义相关概念三部分组成,前两部分的比重越大,则A,B的语义相似度越大。

1)当A,B为同支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数。

2)当A,B为异支概念时,A与B之间的语义关系为:

式中,m表示概念B的子概念数,n表示概念A的子概念数,X表示A与B最近根概念的子概念数。

定义4:两个概念之间的语义距离,是指在语义树中连接这两个概念的最短路径的长度。语言学研究认为,两个概念的语义距离越大,其相似度越低;反之,两个概念的语义距离越小,其相似度越大,两者之间可以建立一种简单的对应关系。特别地当两个概念之间语义距离为0时,其相似度为1;当两个概念之间的语义距离为无穷大时,其相似度为0。两个概念之间的语义距离表达式为:

式中,distant(A,B)表示概念A与B之间的语义距离,weighti表示连接A,B的最短路径上第i条边的权值。

定义5:概念的深度是指该概念与语义树根的最短路径中所包括的边数。因为在语义树中,每一层的概念都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个概念的深度和越大,概念之间的相似度越大;两个节概念的深度差越小;概念之间的相似度越大。概念深度的表达式为:

式中,depth(A)表示概念A的深度,n表示概念A与语义树根之间的最短路径中所包括的边数。

3 语义相似度计算方法

考虑概念语义树中概念之间的层次关系、继承关系及语义关系,我们提出下面这个关于语义相似度的就算方法:

其中:Level(A,B)表示概念之间的语义关系对相似度的影响;

Distant(A,B)表示概念之间的语义距离对相似度的影响;

Depth(A,B)表示概念之间的深度对相似度的影响。

但对概念语义树中层次结构分以下这两种情况考虑:

1)当A,B为同支概念时,A与B的语义相似度为:

2)当A,B为异支概念时,A与B的语义相似度为:

α,β,γ为调节因子,且α+β+γ=1.

4 实验结果

选取如图2一个简单的实例来计算语义相似度。

选参数α=0.6,β=0.3,γ=0.1,可得到“计算机”与其余各节点之间的语义相似度为:

参考文献

[1]刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76.

[2]李玲.面向流程诊断的企业知识相似度匹配工具研究与开发[D].哈尔滨:哈尔滨工业大学,2006.

[3]王进,陈恩红,施德明,等.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006(6):2-6.

上一篇:英语课堂中的人文关怀下一篇:边界文化