知识网格范文

2024-08-12

知识网格范文(精选6篇)

知识网格 第1篇

网格的动态、分布式、可扩展的特性为分布式数据挖掘提供了强有力的基础平台;而网格中的数据又具有大数据集、分布式和异构性的特点,因此,网格环境下针对分布于各个站点的数据源中的知识发现是一个具有挑战性而又充满前途的研究性问题。已经有越来越多的研究机构参与该研究过程,其中以Vienna大学的GridMiner项目为首,该项目起始于2003年1月,研究目标是提供从分布式异构数据源中发现和访问相关知识和信息的工具,包括知识发现过程的所有方面,并将其集成为先进的面向服务的网格应用。

数据挖掘就是从大量的数据中发现或“挖掘”有用而未知的知识,也称为“数据库中知识发现”(KDD)。数据挖掘是知识发现过程中的最重要的一步,可以与用户或知识库进行交互,将有趣的模式提供给用户,或作为新的知识存放在数据库中以作为下次知识发现过程的输入。知识生命周期如图1所示。

网格知识发现研究的目的是给专家或数据挖掘人员一个在分布式网格环境下能够简化知识发现过程的工具,所以系统必须提供强有力而又简单的方法来使用图形用户接口,隐藏网格的复杂性。

本文在分析GridMiner的3层体系结构的基础上,描述了相关工作,提出了需要改进的方面。

1 网格知识发现框架的设计

新一代的网格技术是面向开放网格服务体系架构OGSA的,它提供了扩展的服务的集合,允许虚拟组织以各种方式结合。基于网格和Web服务的技术,OGSA定义了统一的服务语法(网格服务),规定了创建、命名和发现临时服务实例的机制,提供了位置透明性和服务实例的多协议绑定,支持底层本地平台机制的集成。在网格平台上设计知识发现就需包含一定的系统组件,遵循一定的设计原则。

1.1 设计原则

基于开放网格服务体系结构OGSA设计面向服务的网格数据挖掘系统必须遵循一定的原则,包括:

1)分析大量分布式异构的数据集:

采用一定的策略进行数据继承,构成复杂的数据访问系统。

2)交互式工作流管理:

利用工作流语言和工作流组装引擎与用户互动地自主组装工作流。

3)数据挖掘服务:

由于是进行面向服务的网格数据挖掘,所以系统必须能够考虑和提供大量的数据挖掘策略,并且能够分析它们的性能。

4)知识库:

存储一定的文档,用于存放描述数据源的元数据、数据挖掘结果模式、工作流以及规则等。

5)图形用户接口:

便于用户和数据挖掘人员的操作,提供可视化图形界面,加强系统的可操作性和可理解性。

1.2 系统基本组件

1)网格:

提供特定的网格服务,包括网格数据服务和数据挖掘服务

2)Web:

提供包括服务配置、数据挖掘任务配置以及用户-服务接口等类型的Web应用

3)XML:

基于XML符号生成描述工作流、元数据、数据挖掘模型、执行文档、调节模式的XML/XSLT/XSD文档。

2 网格知识发现框架的实现

图2为GirdMiner的三层体系结构图。

2.1 Grid层

知识发现是一个与用户频繁交互的过程,为了达到满足用户要求的结果,必须使用不同的挖掘算法或者调整参数来影响知识发现的过程。引进动态工作流的概念,使得用户可以根据个人需要来组建工作流。

1)动态服务组装引擎:

动态服务组装引擎(DSCE)将所有需要的服务都集成为工作流。动态服务组建语言(DSCL)是基于XML的组建动态服务的新规则,作为一个网格服务实现,允许工作流的描述由各种网格服务和参数值规则构成,并且可以由用户交互地控制,包括执行、停止、重新开始甚至改变工作流和参数。

2)网格数据服务:

网格知识发现中的数据集成是基于网格数据中介服务(GDMS)的,允许将异构的关系数据库、XML数据库和用逗号分隔的文件集成为一个逻辑上一致的同构虚拟数据源。网格数据中介服务的概念是由使用网格数据服务(GDS)的标准参考实现的,称为OGSA-DAI,它是由DAIS工作组提出的。

3)数据挖掘服务:

目前,支持数据挖掘过程的服务能够执行数据挖掘服务和OLAP(联机分析处理)数据挖掘服务(DMS)包括数据挖掘算法的并行、串行和分布式执行,可以处理数据访问和集成服务提供的数据。每个数据挖掘服务都是作为由OGSA规定的单独的网格服务实现的,能够处理大数据,并以标准的格式表示结果。DMS的输入数据是XML WebRowSet格式的,并且以文件或者数据流的格式发送。

2.2 Web层

1)数据处理:

OGSA-DAI提供了各种类型数据的分发和访问机制,包括数据的预处理,进行数据清理,消除噪音数据;提供显示元数据、数据挖掘模式及扩展模式和数据柱状图等数据浏览器。

2)服务&任务配置:

利用一系列的Web应用程序,可以在准备数据挖掘任务过程中与用户进行交互。可以配置服务(如选择算法),建立输入参数(选择属性等)和为DSCL客户端准备工作流参数(DSCL文档)。服务配置器是一种向导,可以由用户为服务建立和证实任务。

3)知识库:

知识库(KB)能够存储和共享在知识发现过程中其他组件所需要的所有的信息,并能够利用新的发现知识增量扩充知识库以备后用。KB的构成如下:

(1)本体(ontologies)-描述数据挖掘领域,知识发现过程中使用的数据源和活动;

(2)元数据(metadata)-描述数据源的数据信息;

(3)规则(rules)-数据挖掘任务的发现结果和;

(4)事实(facts)-对领域本体使用规则产生的知识。KB也是作为服务中心寄存器使用的,存储了有关用户和项目的信息。

KB中的所有信息都是由XML表示的,而本体是用OWL描述的。

4)DSCE Client:

动态服务控制引擎客户端是作为Web应用程序实现的,包括最终的DSCL文档,和从DSCE接收通知并将结果传给知识库。借助于缓冲机制使得工作流达到最优化。它与DSCE引擎交互的操作有start(),stop(),pause(),resume()。

5)可视化:

将PMML(预测模型标识语言)模型转换成图形表示,包括关联规则、聚类、序列化、决策树、柱状图等图形表示形式。

2.3 图形用户接口

GUI能够抽象地交互构造工作流描述,并且能够将数据挖掘任务的结果可视化表示。客户端环境可以是任何支持java的操作系统。GUI是目前被配置为只支持Java的应用程序,可以由Java Web Start启动。为已存和新开发的数据预处理以及数据挖掘服务集成到网格中提供了简易的方法。

3 网格知识发现的过程

数据挖掘是数据库中知识发现的核心阶段,包括数据准备(包括数据清理、数据集成、数据转换、数据过滤等)、数据挖掘结果评估和模式表示。

一个强有力且可扩展的机制允许用户事先指定整个知识发现工作流。使用基于XML的网格挖掘任务规则语言(GM-JSL),提供了一个人们可读、可编辑的格式,并且和网格服务有很好的兼容性,与SOAP和OGSA也是一致的。

在此为某一应用的网格数据挖掘过程指出了一个GM-JSL实例:

1)Header类型包含任务名、GM-JSL版本描述的元信息。

2)Resources部分以从抽象类型DataSet继承来的complexTypes格式定义数据挖掘服务的输入。关系数据库的数据集是预先定义的,其他的数据集(flat files,XML-databases)可以简单的定义为XML-Schema的子集。指出用于执行的结点的类型。

3)Workflow部分定义了一个按步处理的活动序列。为集中式数据挖掘情形展示了一个典型的工作流。

集中式数据挖掘服务(CDMS)实例关注的是满足计算节点的需求。创建之后,服务用于在Resources中指出的DataSet ds1,采用了C4.5分类算法。最后,该模型在输出信道中作为决策树呈现。

3.2 集中式数据挖掘服务的实现

在GT4的基础上实现数据挖掘服务的原型GridService。运行在GT4框架中的服务以Jakarta-Tomcat为主机。客户端应用程序是独立的Java应用程序,同样也使用了GT4框架和Apache Axis。

第一阶段,关注的是数据挖掘服务的体系结构,以及主机环境问题。传统的数据挖掘算法(如分类和关联规则挖掘)需要内部的数据结构是驻内存的。这些算法都被充分研究过,同时也已经用商业数据挖掘工具实现。因此,使用一个免费可用的数据挖掘系统Weka,而不是重新实现已经知道的算法。该软件包是由New Zealand的Waikato大学开发的,起初用来实现Witten和Frank讨论的算法。由于这是一个纯粹的JAVA程序,有文档化的API,非常适合该应用的目的,而且在集中式环境中作为一个数据挖掘引擎使用。

图3解释了在此体系架构上的集中式数据挖掘服务的结构和可能的数据流。客户端进程通过与社团注册中心(DMS-R)联系,向可用的数据挖掘工厂(DMS-F)发送查询请求。这些工厂利用标准的OGSA serviceDataElement-mechanism机制提供元数据和状态数据,因此如果注册中心返回一系列factory-GSH(网格服务句柄),用户选择最合适的作为结果。用户以GM-JSL的格式指定数据挖掘任务,并将该任务描述发送给DMS-F。factory分析输入,在合适的结点创建数据挖掘服务(GM-CDMS)实例,通过提出任务描述来指示服务该做什么。实例本身通过连接数据源、装载必要的算法和执行方案的创建来准备执行。最后实例自身注册到注册中心。

成功地创建服务后,用户可以订阅由新建的服务实例提供的NotificaitonSource port-Type。因此,客户端可以异步地通知服务相关事件它所感兴趣的东西(如进展、状态和错误)。关于服务的exeute操作,GM-CDMS开始处理指定的任务。

集中式数据挖掘服务CDMS实现OGSA的标准端口GridService(用于生命周期管理和服务数据元素查询),NotificaitonSource运行客户端应用程序订阅上述描述的主题,以及服务规则DataMiningPort。GridService端口提供用于初始化服务(通过factory)和执行提交任务(以GM-JSL的形式)的操作。

DataMiningPort使用Service Data Elements(SDEs)来存储生命周期、进展和状态信息,执行方案和学习进程终止后的结果也由XML格式的SDE存储。客户端能够使用OGSA预定义的SDE查询机制来访问服务数据元素的内容。

目前的原型实现能够通过JDBC或者Mediator原型来直接装载数据,也可以从目前正在开发的OGSA-DAI装载。

3.3 分布式数据挖掘服务

该服务的体系结构如图4所示。首先决定用于协调者的网格数据知识挖掘结点,称为Master。Master结点起初是由用户通过GM-JSL指定执行特定的数据挖掘任务的。Master负责命令和协调工作结点。factory创建一个DM Master结点和三个DM工作结点。工作结点既访问单独的中介服务,也访问指定的分布式数据源。

4 总结与展望

本文展示了目前的网格知识发现研究,它是网格技术和数据挖掘技术的应用和扩展,是一个非常重要而又全新的研究领域。在介绍网格数据挖掘概念的基础上,全面介绍了网格数据挖掘面向开放、基于服务的体系架构的设计和实现,并给出了基于该架构的网格数据挖掘的全过程。对于该架构的应用结果和它的可用性仍是今后值得关注的问题。

摘要:该文在介绍网格知识发现概念的基础上,提出了网格知识发现架构设计的基本原则和组件,设计了一种新型的网格知识发现框架,并在此架构上分析了集中式数据挖掘和分布式数据挖掘的全过程,最后给出了工作展望。

关键词:网格,知识发现,数据挖掘,框架设计

参考文献

[1]Brezany P,Janciak I,Wohrer A,et al.GridMiner:A Framework for knowledge Discovery on the Grid-from a Vision to Design and Im-plementation[J].http://www.gridminer.org/publi cations/cgw04.df.

[2]Brezany P,Janciak I,Wohrer A,et al.Towards an Open Service Architecture for Data Mining of the Grid[J].http://www.chinagrid.net/dvnews/upload/0509251010.

[3]Brezany P,Elsayed I,Janciak I.A Min Tjoa,Alexander Wohrer.GridMiner Tutorial[M].2005-11-20.

网格化知识竞赛方案三修版 第2篇

——仙林街道庆祝建党90周年暨社会管理网格化知识竞赛方案

一、活动主题

党旗辉映网格行

二、活动时间

2011年6月23日(周四)下午2:00

三、活动地点

南师国交中心

四、参加人员

1、邀请市、区相关部门(市政法委、市社建工委、市城管局、区委组织部、区政法委、区社建工委、区城管局、区财政局、区人社局、区安监局)领导;

2、街道班子成员;

3、评委团:由市、区部门领导和街道班子成员共同组成;

4、参赛队员:

共组成7支参赛代表队。

(1)6个网格各组1支代表队参加比赛,每队成员为3人(由各网格一、二级负责人或责任人组成);

(2)城管科、经济科、安监科、督察组联合组成1支代表队,队员为3人(由相关科室中无具体网格的工作人员共同组成);

5、参赛观众:机关、社区全体工作人员;根据组队情况,现场参赛队员以外的同志作为相应代表队后援团(后援团制做网格标志及口号牌现场助阵加油,并根据比赛规则协助答题);

6、主持人:曹啸、汤昭照。

参赛队员和观众均要求统一着网格工作制服,佩戴工作证。

四、竞赛内容

本次知识竞赛的命题范围主要涉及社会管理网格化的各方面。

五、竞赛形式

竞赛采用现场知识擂台赛,建议规则:

(1)现场知识擂台赛采取必答题、抢答题和风险题三种形式。其中必答题7组21题(7个代表队每队必答3题,每题10分),抢答题14题(每题10分),风险题7组21题(每组任选2题,由代表队自由选择分值为10分,20分、30分的题目,并指定回答人员,不能重复选择人员及分值)。

(2)代表队顺序按现场抽签顺序排定。

各代表队的答题规则为:

必答题共三轮,第一轮由每个代表队1号选手回答,第二轮由每个代表队2号选手回答,以此类推,答对加分,答错扣分。队员答错则题目转由观众回答(不分网格),并发放观众纪念品。

抢答题由主持人念出题目说“开始抢答”后,最先按响抢答器的代表队回答问题,答对加分;答错可由后援团中的1名网格成员补充回答,后援团答对则不扣该网格分数,但停答下一题;后援团再次答错则扣分并停答下一题。

风险题由各代表队指定本网格的1名成员(含代表队及现场后援团)答题并选定题目的分值,由答题人员选择题号,回答正确的,该网格加上相应分值,回答错误的则扣除相应分值。该环节共2轮,第二轮代表队选择的人员与分值,不得与第一轮重复。答题顺序根据前两轮得分确定。

(3)竞赛开始,每队基本分数为100分,在答题过程中,根据题目分值答对加相应分值,答错减相应分值。每题限时在5秒内,必须开始作答,否则扣相应分值;抢答题若超过10秒无人抢答则该题作废;必答题和抢答题的每题答题时限为1分钟,风险题答题时限为2分钟。

六、奖项设置

1、现场知识竞赛设一等奖1个,奖励价值2500元电动自行车1辆;二等奖2个,各奖价值2000元电动自行车1辆;三等奖4 个,各奖价值1600元自行车1辆;

2、各网格成员根据竞赛名次均可获得相应个人奖品;

3、设立现场观众答题,参加答题均可获得纪念奖品。

七、竞赛程序

1、主持人介绍:

(1)开场白;

(2)宣布莅临本次竞赛的领导及评委成员;

(3)宣布本次竞赛参赛代表队情况;

2、主评委宣布竞赛规则。

3、竞赛流程:

(1)必答题(3轮、共21题)

第一轮:每队1号队员回答;

第二轮:每队2号队员回答;

第三轮:每队3号队员回答;

穿插观众答题。

(2)抢答题(共14题)

抢答题由主持人念出题目说“开始”后,最先按响抢答器的代表队回答问题,答对加分;答错可由后援团中的1名网格成员补充回答,后援团答对则不扣该网格分数,但停答下一题;后援团再次答错则扣分并停答下一题。

穿插观众答题。

(3)风险题(2轮,共14题)

由各代表队指定本网格的1名成员(含代表队及现场后援团)答题并选定题目的分值,由答题人员选择题号,回答正确的,该网格加上相应分值,回答错误的则扣除相应分值。该环节共2轮,第二轮代表队选择的人员与分值,不得与第一轮重复。答题顺序根据前两轮得分确定。

穿插评委点评。

4、观众互动环节:

由观众席中的网格成员回答问题,并发放纪念品。

5、街道工委孙金娣书记讲话;

6、宣布比赛结果;

7、颁发奖状、奖品;

八、竞赛规则(见附件)

九、筹备事项

1、组织工作:

(1)6月20日召开网格负责人、责任人及社区主任会议,明确竞赛规则、内容、要求及参赛人员等;

(2)拟定竞赛题目,并制作现场ppt;

(3)邀请有关领导出席;

(4)制定评审材料;

(5)相关文字材料准备(主持稿、领导讲话、宣传通稿等);

(6)确定主持人及评委;

(7)确定竞赛奖品及纪念品;

(8)预算活动经费。

2、场地布置:

(1)会标、背景制作;

(2)领导、工作人员、观众座位安排;

(3)抢答器、计分簿、响铃;

(4)笔记本及投影、话筒设备。

3、现场工作:

(1)负责竞赛现场记录、记分、计时;

(2)负责ppt演示;

(3)负责抢答器操作;

(4)负责观众答题及纪念品发放;

(5)负责核认竞赛获奖情况、填写证书等;

(6)负责现场拍照。

4、宣传工作

8、合影留念,请有关领导同全体参赛队员合影留念。

(1)邀请南京电视台教科频道;

(2)邀请栖霞电视台;

(3)邀请栖霞简报。

5、后勤物资及经费核算:

(1)现场场地租用、背景板制作、绿植鲜花及其它设备使用及布置等费用:约5000元;

(2)抢答器及计分牌、响铃:借用;

(3)奖品及纪念品

集体奖奖品:13000元

一等奖:1名

航天神迪踏板电动自行车:2550元*1=2550元;

二等奖:2名

航天神迪电动自行车:2000元*2=4000元;

三等奖:4名

天禧电动自行车:1600元*4=6400元;

集体奖个人奖品:约3000元。

一等奖个人奖品:

高露洁牙膏套装+毛巾,21.8元/人;

二等奖个人奖品:

高露洁牙膏套装,15.9元/人;

三等奖个人奖品:

毛巾,12.9元/人;

观众纪念奖:约200元。

肥皂、牙膏等。

(4)矿泉水、证书、席卡、胸牌及其它会务用品,约

(5)宣传费用,约2000元。

合计:约23500。

知识网格 第3篇

产品创新能力已日渐成为决定企业核心竞争力的重要因素[1]。为了更好地实现以顾客需求为导向的创新,企业需要充分整合与自身相关的多种资源来指导未来的产品创新。而客户协同产品创新通过与客户、制造商、供应商、销售商及科研院所间的联合,可实现对组织优势资源的重新整合和有效利用,从而不仅可以满足企业产品创新对技术、人才和信息等的需求,还可以获取更多的产品创新知识,提高企业创新能力,获取竞争优势,最终达到为企业价值网络增值的目的[2,3]。对此,国内外学者从多个方面开展了深入研究:杨育等[3]提出了客户协同产品创新工作模型;Fox等[4]建立了包括客户在内的网络化虚拟团队工作过程模型;郭清等[5]对客户知识管理(customer relationship management, CRM)中的客户创新知识概念、形态、价值进行了定义和综合分析;Cheng等[6]提出了包括客户在内的基于实例推理和TRIZ创新原理相结合的协同产品创新方法,并构建了实例推理框下的产品创新知识推送系统;Gloor等[7]建立了客户协同创新组织的网络模型COINs,并对该网络的动态性能进行了评估;杨洁等[8]基于粗糙集方法提出了面向约束满足的客户协同产品创新知识推送方法,并基于该方法构建了一套知识推送系统;张磊等[9]构建了创新平台工作网络拓扑结构框架,并提出了创新平台的归并请求模式及基于Java多线程同步和加锁机制的“归并请求”求解算法。

分析现有的研究成果可以发现,客户协同产品创新模式是随着互联网及其他相关信息技术不断发展进步而形成的,但随着知识量的不断积累,各类知识分散、多样和异构的特征也日趋明显,再加上各主体专业背景、知识水平和兴趣偏好等方面存在差异,以及创新对象不同属性间各种复杂、相互影响、相互依赖的关系[10],使得各主体的创意知识缺乏统一的描述方法,从而影响了创新主体间知识的获取和共享。对此,林敏等[11]借助复杂网络的理论与方法,提出了知识转移与共享的网络模型,研究了网络结构对组织中知识共享的作用;Adela等[12]通过构建网络化的学习网格,使远程学习者可以在同步条件下,根据自己的偏好和实际需求进行知识学习和共享。然而客户协同产品创新的知识共享是以创新对象为导航的动态柔性过程, 具有分布式、多样性和可重构性等特点[13],这就需要建立统一、高效的知识集成机制和灵活可控的知识共享机制,以适应分布、异构的协同创新环境[14,15,16]。基于知识本体论和认识论的知识网格,可以对异构、广域和分布环境下的各种资源进行管理,通过分布的协作处理、抽取和挖掘技术,从数据源中获取有用信息,并把这些有用信息通过互联网进行连通,实现知识资源的全面共享,为知识管理提供统一的平台[17,18]。文献[19]针对网络环境下企业内部的知识生产、企业间的知识供应进行建模, 并提出基于知识网格的知识供应系统层次图以及各个层次的服务模型;文献[20]构建了一类知识网格服务不同主体的协同决策模型;文献[21]将网格技术、代理和可扩展标记语言技术相融合, 建立了基于知识网格的复杂产品概念设计系统。上述研究结合本体、语义Web等技术为知识网格的应用提供了支持,使得知识网格成为具有广阔应用前景的虚拟组织知识共享平台。

为满足客户协同产品创新组织知识共享的需求,本文首先分析并总结了该类创新模式知识共享的总体特征,并在此基础上提出了知识网格环境下的客户协同产品创新知识共享模型。通过面向客户协同创新知识共享原型系统的设计,验证了所提出模型及相关技术的可行性和有效性。

1 知识网格环境下的客户协同产品创新知识共享模型

1.1 知识网格环境下客户协同产品创新知识共享的特点

与单个单位或组织中的知识共享相比,客户协同产品创新中不同主体间的创意知识表述和应用背景存在差异,这种差异影响了知识的获取与共享。知识网格作为广域范围的知识共享平台是一个智能的互联环境,它把分布的知识资源整合为共享的知识库,使用户或角色有效地获取、发布、共享和管理知识资源,并为用户提供所需要的知识服务。而且,在共享本体的指导下实现统一语义的知识共享环境,使得来自不同领域、地方、知识背景和单位的创新主体能够实现知识语义上的传递和相互理解。为此,从提高协同创新水平的角度出发,需要建立知识网格环境下联盟范围内的知识共享模型来整合和管理知识资源。结合客户协同创新的相关特性[2,5,9,10,22,23,24,25,26],客户协同产品创新知识共享具有以下主要特点:

(1)在宏观上,客户协同产品创新组织为多单位、多主体参与的虚拟组织;在微观上表现为面向创新对象的矩阵式组织结构。为此,其知识的共享客观上要求以创新对象为中心进行管理,把知识集成到创新过程的各个环节中,从而实现知识的及时供应。

(2)具体到每个创新主体而言,可将其视为客户协同组织的基本共享单位。因此,为提高产品创新水平,要求各成员具备更好的开放性(即对数据、信息和知识的统一、一致的理解和共享),最终反映在知识共享上就是需要参与客户协同创新组织的各主体共同确立一种以创新对象为主导、组织范围内易于实现创意知识转化、具有统一语义描述的知识表述方法。

(3)在技术手段上,客户协同产品创新知识共享系统的构建涉及知识存储方式、本体建模程序选择、访问端口、知识库融入网格程序接口等方面,为消除上述障碍,协同组织需要采用建立系统的框架模型支持系统的设计与应用。

由此可见,知识网格环境下客户协同产品创新共享是根据创新对象的需要动态地构建跨组织边界的知识共享虚拟组织,并支持大范围的动态知识共享环境,以满足不同地域、领域和知识背景的创新主体对产品创新知识的需求,并最终达到有效提高产品创新水平的目的。

1.2 客户协同产品创新知识共享模型

利用知识网格在整合重塑知识资源方面的优势,并结合上述客户协同产品创新知识共享的特征,对客户协同产品创新知识资源进行管理,将地理上广布且归属不同组织的创新主体、具有异构特性的软硬件资源通过网络连接, 以产品创新对象为驱动引擎,实现知识资源间多向度灵活组合、分配、调度和聚合以及知识交换、交流和共享等功能。

图1所示为客户协同产品创新知识共享模型。在该模型中,客户、供应商、制造商及相关科研院所等单位或组织通过登录开放知识网格服务系统(即网格环境)中的用户层和连接控制层,并经过访问身份验证、用户权限识别和网格系统安全认证后,针对创新对象,在协同决策、商讨的基础上,确定各创新主体在协同创新组织中的角色及所承担的创新任务,进而结合创新主体本人专业知识背景和兴趣偏好,激发非结构化的产品创意知识,包括外观创意、功能创意、色彩创意和结构等。这些多样和非结合化的创意通过领域本体来进行统一语义描述,形成结构化的产品创新知识,并与知识网格服务系统中的知识服务器节点相匹配。开放知识网格服务系统通过知识服务器及共享平台为产品创新所需知识提供统一的表示和操作视图,主要包括与外形创意知识、功能创意知识、工艺创意知识和结构创意知识相匹配的概念型知识、规则型知识和实例型知识等。当协同组织中成员或创新对象发生变化时,只需改变相应的映射关系就能满足新的客户协同产品创新组织的知识共享需求。

2 客户协同产品创新知识共享过程的关键点研究

2.1 客户非结构化产品创新知识转化

由于对产品功能和性能等方面的认识和了解程度不同,客户创意知识常采用符合自己语言习惯的描述性语义方式对创意进行描述,反映在对产品创新知识的具体描述中,则更多的是一种非结构化的数据。对此,有关学者往往采用质量功能展开(QFD)的需求分析方法,把主体产品创意类化为客户需求,然后在综合考虑各种设计约束的条件下,将上述类化后的需求转化为产品特性,并通过需求求解产品技术指标以达到产品创新的目的。但随着市场需求的快速变换、企业产品创新模式的变革,尤其是客户专业技能技巧及感性认知的提高,使得客户创意表述日趋多样化和复杂化。显然,基于QFD方法的知识转换方式已经不能满足市场对产品创新的要求[27]。

针对此,笔者通过构建“创意-问题-功能”模型(IPFM)实现客户非结构化的创意向结构化创意转化,以便于在知识网格环境下建立一个对外开放、方便快捷、安全可靠且能满足不同创新主体进行创意表达和语义交换的集成创新平台。

多样的客户创意决定了不同类型的创新问题域。本文中问题域的概念沿袭并扩展了SBF2模型[28],即在功能、行为、流和结构等知识概念层面的基础上,构建了“创意-问题-功能”转换模型(IPFM)及方法,如图2所示。在该转换模型中,分别包括一个创意类、问题类和功能类,其中,创意类有五个属性:名称、描述、类型、属性、创意相关功能,分别对应问题类的6个属性。其中,类型提供对创意/问题/功能本体中词汇的引用,而创意/问题/功能本体类型分为6类,即质量、能量、形状、信息、时间和综合6类基本问题/功能集;创意类型、属性和描述将分别与问题/功能类型、属性、关系、名称、层次、目标等关联起来;创意相关功能将问题与对应功能关联起来。功能类型和功能层次提供对问题/功能本体中词汇的引用,功能类型利用文献[22]提出的标准功能(便于问题/功能本体的形式表达及分类)。元功能、子功能和模块功能描述功能间的层次关系以及与产品部件的联系;功能目标表示功能的预定目标;功能相关部件和功能相关输入输出流分别将功能与对应部件和流关联。其具体转换过程描述如下:

(1)主体创意的描述。包括创意名称、创意表述、创意类型、创意属性和创意相关功能。

(2)创意/问题的对应变换。包括名称对应、描述对应、类型对应、属性对应、关系对应、层次和目标对应。

(3)问题的重要程度排序。基于模糊信息熵理论和二元语义方法对问题相关功能子模块进行重要性排序,以获得能够真实反映主体创意的产品知识,保证重要程度高的问题能映射到最终的新产品功能上。

(4)问题的功能形式表达。基于前文提及的功能分类,对于重要程度高的问题,用功能形式加以表达,并将不同的问题按照重要程度的高低归一到不同的功能形式上,形成基本的问题/功能集。

(5)问题向功能的转换。针对不同主体创意,采用不同的“创意-问题-功能”转换方法。对需求类创意/问题,基于质量功能展开方法进行转换;对感性创意/问题,采用模糊认知图、感性工学和模糊k均值算法进行转换;对于基于主体基本知识背景提炼出的创意/问题,采用聚类、关联规则和多元回归分析等数据挖掘方法进行转换。

通过“创意-问题-功能”转换模型,将多样、不规范、非结构化的客户创意描述转换成统一的产品创新知识表达形式,并创建其知识概念本体,从而实现知识网格环境下协同创新组织各主体、各单位间产品创意和知识的无障碍共享及交流。

2.2 产品创新知识共享概念本体创建

产品创新知识概念本体是协同联盟内创建的与知识共享相关的本体术语集,类似概念的语义词典,主要用于转化后的结构化产品创新知识概念的定义、本体创建及概念间的上下位关系,从而为基于Web本体语义描述的知识表示语法结构奠定基础。本文通过定义七元组ITO=(ITOC,ITODs,ITORs,ITOM,ITOR,ITOA,I)来描述协同产品创新知识的概念。其中,ITOC表示主体对产品创新对象(innovation target ontology, ITO)的创意所属知识领域的概念;ITODs为概念ITOC上的一组属性的结构化的描述;ITORs为概念与其他概念间的关系集合,包括概念本体之间整体和局部的关系(“part_of”)、某个概念是另外某个概念的属性关系(“attribute_of”)、概念之间的实例关系(“instance_of”)、继承关系(“kind_of”)、等价关系(“same_of”)等;ITOM为主体创意作用于产品创新对象时所涉及的创新方法,包括可拓学方法、发明问题创新原理、关联矩阵和工程更改等方法;ITOR为执行主体创意时应予以配置协同创新组织的资源;ITOA描述创新任务相关的活动及其关系;I为产品创新成功案例集。同时,定义如下产品创新知识概念在OWL中的上下位关系:

定义1 概念匹配关系(concept matching relation, CMR)反映本体中的两个概念在本体图中的上下位关系。将两个概念ITOC1和ITOC2的概念匹配关系CMR=(ITOC1,ITOC2)的值域定义为集合Set={Equipollence,Containing,Becontaining,Irrelevant}。其中, Equipollence表示等价匹配,即两个概念等同或具有等价关系;Containing表示ITOC1⊇ITOC2 ,即ITOC2是ITOC1的子概念;Becontaining表示ITOC1⊆ITOC2,即ITOC1是ITOC2的子概念,反映在知识概念本体关系中是以“part_of”、“attribute_of”、“same_of”等具有上下位关系关联的概念类;Irrelevant表示两个概念不相关,匹配失败。

2.3 基于OWL的产品创新知识共享本体表示

在上述创建的产品创新知识概念本体的基础上,根据文献[14]和文献[20]的知识概念类别定义,从知识层次角度即概念层、规则层和实例层,来实现知识网格环境下基于OWL的产品创新知识概念的统一本体语义表示,究其原因是OWL作为W3C 推荐的用来描述Web服务属性及其功能的标记语言,能够使Web服务成为计算机可理解的实体[8,28]。

概念型知识的描述通过OWL中的陈述来表示,即主体、谓词及客体三部分构成一条陈述。其中,主体是产品创新知识刻画的创新对象, 谓词部分则刻画主客体之间的关系,客体是与主体有关联的属性或者属性值。于是,概念型知识的表示可由BNF范式定义如下:

<owl: ontology about=“概念型知识”>

</owl: ontology >∷= =

{“<rdf :Description rdf :about = ” <RDF 资源节点>“>”

{<属性及属性值>}1-n

“</rdf :Description>”}1-n

规则型知识是描述各产品模块或部件间逻辑关系的知识,包括基元命题和经过逻辑“●A”、“A¯”、“●B”、“B¯”运算组合而成的复合命题。一般被表示为:if A then B的形式,其中A是规则的前提条件,B是规则结论。AB被称为命题。然而,由于OWL并不支持命题之间的逻辑运算,为此需在OWL语言的基础上定义有关产品创新知识的相关基本规则类Rule、运算符类Rule Operator和命题类Rule Statement,从而转化为OWL支持的产品创新知识陈述及其之间的逻辑运算。其中,命题类又可以分为基元命题Element Statement和复合命题Composite statement。一条产品创新知识规则就是一个Rule的实例,前提和结论中的陈述则是Rule Statement的实例。于是,规则型知识表示的BNF范式可定义如下:

<owl: ontology about=“规则型的知识”>

</owl: ontology>∷=“<Rule rdf: ID = ” <规则名称> “>”

“<RulePremise rdf: resource = ” <规则的前提> “>”

“<RuleConclusion rdf: resource = ” <规则的结论> “>”

“</Rule>”

<规则的前提>∷=<基元命题>|<复合命题>

<规则的结论>∷=<基元命题>|<复合命题>

<基元命题>∷=“<rdf :Description rdf: ID = ” <基元命题标识> “>”

“<RulePredicate rdf: resource = ” <谓词对应的资源节点> “>”

{“<RuleArguments rdf: resource = ” <资源名称> “>”|

“<RuleArguments>” <参数> “</RuleArguments>”}m

“</ rdf :Description>”

<复合命题>∷=“<rdf :Description rdf: ID = ” <复合命题标识>“>”

“<FirstStatement rdf: resource = ” <基元命题> “>”

“<RuleOperator rdf: resource = ” <运算标识> “/>”

[“<NextStatement rdf: resource = ” <基元命题>|<复合命题> “>”]

“</ rdf:Description>”

实例型产品创新知识一般是由不同专业背景和兴趣偏好的创新主体对与创新对象相似或类似的实例,通过功能、结构类比并加上其本人的理解提出的。本文通过定义实例类Case,并将实例分成三部分进行结构化处理:即问题描述部分(Problem)、方案解决部分(Solution)和效果评价部分(Evaluation),分别用于描述实例发生的背景、原因,用于解决问题的理论、方法、技术和手段,对解决效果的反映及对类似问题的启示。然后把结构化后的实例属性按照问题描述相关属性(超类为HasProblem)、方案解决相关属性(超类为HasSolution)和效果描述评价相关属性(超类为Has Results)分为三种类型。于是,某实例具体结构化时所抽取的属性必定是其中一类的子属性,其知识表示的BNF范式定义如下:

<owl: ontology about=“案例型的知识”>

</owl: ontology >∷=“<Case rdf : ID = ” <案例名称< “>”

{<属性及属性值>}1 - n

“</ owl: Case>”

2.4 客户协同产品创新知识共享访问机制

在产品创新知识共享本体创建及统一网络本体语义描述的基础上,本文构建了知识网格环境下客户协同产品创新知识共享访问机制,实现协同产品创新过程中对各创新主体及各单位产品创意知识的请求处理、知识匹配、知识共享以及对产品创新知识库进行状态管理、更新、修改等维护服务。首先,通过定义一个三元组(DB,ΤCΡ,Set¯)来表示知识网格环境下的客户协同产品创新知识共享。其中,TCP=(wsa,P)为产品创新知识的访问端口模型,wsa为知识网格环境下知识共享端口对应的网络地址,P=(P1,P2,…,Pn),Pj为产品创新知识共享的接口的属性,j=1,2,…n;Set¯为分布的各创新主体及单位通过知识网格共享接口TCP提交产品创意知识请求处理后,返回的产品创新知识集;DB是融入于知识网格的分布式站点服务器端的客户协同创新联盟知识库。然后,结合客户参与的产品创新过程,知识网格环境下的客户协同产品创新知识共享访问机制设计如下:

(1)客户协同联盟中各创新主体通过知识网格节点端口TCP=(wsa,P)提交非结构化的产品创意知识请求;

(2)创新主体非结构化的产品创意知识请求,经过“创意-问题-功能(IPFM)”模型实现客户非结构化的创意向结构化创意转化;

(3)构建结构化产品创意知识共享概念本体,并采用OWL对产品创新知识按照概念型、规则型和实例型,进行本体语义描述;

(4)将基于OWL描述的产品创新知识,按照不同的Pj接口属性推送到协同联盟的知识网格下与DB中产品创新知识按照概念匹配关系CMR=(ITOC1,ITOC2)进行匹配,有关知识匹配表示的BNF范式定义为

< ProductionInnovationKnowledge>∷=<Concept>;<Attribute>|<Resource>;<Attribute>

<conceptName>∷=<string>

<Attribute>∷=<attributeName> ‘=’<attributeValue>

<attributeName>∷=<string>

<attributeValue>∷=<integer>|<real>|<boolean>|<string>

同时考虑到产品创新的相关约束规则时,可表示为

<DesignRule>∷=<RuleExpression><relationalOperator><RuleExpression>

<relationalOperator>∷= ‘<’|‘>’|‘= ’|‘≤’|‘≥’

通过知识共享访问机制,对协同联盟成员的创意知识请求,按照“创意-问题-功能(IPFM)”模型实现知识网格注册表引导下的创意知识转换,然后基于OWL本体语义描述,把各创新主体知识请求变成对应的具有统一术语的概念本体,并在本体的帮助下从分布式知识网格服务节点的客户协同创新联盟知识库中匹配出符合条件的产品创新知识,使得创意知识共享成为可能。

3 原型系统的实现与应用

3.1 客户协同产品创新知识共享原型系统设计

为实现协同产品创新中的不同创新主体知识共享,构建了知识网格环境下的客户协同产品创新知识共享系统,其基本框架组成如图3所示。协同创新联盟各单位及创新主体把需要共享的知识封装为知识网格节点,并注册到开放网格服务体系的知识共享中心,包括产品知识、产品专利、产品实例、产品模型、创新工具、产品设计、知识地图、创新方法等各类知识服务器,并且每个知识服务器都是知识网格中一个节点。各主体通过登录基于Web服务层应用程序的客户端界面来进行创意知识发布与获取服务知识发布接口对知识进行语义描述,然后通过Jena应用程序接口实现OWL文件的解析和语义匹配实现对产品创新知识资源的注册、请求处理、匹配及共享。

该网格系统的开发平台基于Intel、Windows XP软硬件系统和Globus Toolkits3。首先在获取创新主体产品创意知识的基础上,利用Stanford大学的Protégé3本体建模语言对产品创新知识进行描述和整合;然后采用MySQL作为数据库,Jena2.3作为本体解析器进行本体的解析、开发、程序推理及存取;利用XML的SOAP协议,建立基于Web Services体系结构的不同创新主体知识服务网格节点。该网格节点不仅负责维护系统中的基本本体和目录本体,同时兼作UDDI私有注册服务器,设计中采用集成工具包JWSDP(Java Web services developer pack)中包含的JWSDP Registry Server实现UDDI注册表的设计。

系统在使用时,不同创新主体通过本地知识服务网格节点Protégé-owl Api实现对客户产品创意知识本体的查询操作,并以附件方式把本体文件下载到本地计算机,然后通过Protégé等本体建模工具进行浏览或本体扩展。

3.2 应用示例

M公司主要从事手持电钻的研发和生产,通过市场调查发现,钻空效率高、手柄处防滑性强且不同型号钻头容易更换的产品最受市场欢迎。于是M公司市场部和技术研发部选取部分有积极创新意图的用户会同供应商、销售商及相关科研院所组成客户协同产品创新联盟,通过发挥各自的产品创新知识优势,并借助于基于知识网格环境的产品创新知识共享系统及集成到其内部的TRIZ创新工具包实现产品的创新设计。首先协同联盟各参与产品创新的主体成员通过各自的知识网格节点端口TCP=(wsa,P)提交非结构化的产品创意知识请求,并利用知识网格节点中知识服务器完成产品创意知识请求,并通过上述“创意-问题-功能”模型、产品创新知识共享概念本体及语义表示方法将相关非结构化创意知识表达转换成基于OWL的结构化产品创新知识表述,结果显示:①增大功率,满足高钻孔效率需求;②增强摩擦性,满足防滑性需求;③增强可操作性,满足易更换性需求。然后运行TRIZ创新工具软件Goldfire,进入知识网格节点服务系统中的创新知识匹配搜索,可得出与上述创意需求相匹配的3条创新原理:“18振动”、“40复合材料”和“12等势性”;再通过该系统进行知识共享发布,更进一步对各参与单位知识网格节点服务端知识库搜索匹配,得到该类型手持电钻的具体创新方案:

(1)采用表面滚花条纹的高摩擦系数材料并附加指环来增加防滑性;

(2)设置专门的振动电机,该电机在使钻头小幅前后振动的同时,可缓和齿轮传动引发的振动,使运行更平稳,从而提高钻孔效率;

(3)钻卡内部与钻头底接触部分预置同极磁铁,这样在安装钻头时就存在反向预置力,一方面在松掉钻卡后钻头可以自动弹出,另一方面在紧固钻卡时可产生预紧力,增加紧固作用,提高安全性,也未增加产品的复杂程度。

4 结束语

为了提高产品创新过程中各主体及单位知识交流与共享的水平,本文对知识网格环境下的客户协同产品创新知识共享模型及其关键点进行了深入的研究。首先,提出了“创意-问题-功能” 模型(IPFM),解决了产品创新设计活动中部分创新主体非结构化创意向结构化知识转换的问题;其次,针对结构化后的产品创新知识,在建立其概念本体并定义其上下位关系的基础上,提出了一种基于OWL的产品创新知识本体语义表示方法,将各种产品创新知识按照概念型、规则型和实例进行统一描述,从而保证了知识本体的稳定性和通用性,也有利于对知识的整合以及属性、词汇的扩展,并最终实现了知识网格环境下对协同联盟范围内各类知识进行无障碍交流、传递和共享目标。最后,通过某型号手持电钻的创新设计过程验证了本文所提出的知识共享模型和原型系统的有效性、可行性。

基于知识网格的分布式数据挖掘论文 第4篇

关键词:分布式数据挖掘;网格计算;网格服务;Web服务资源框架

一、前言

随着科学、工业、商业等领域的发展,出现了大量的TB级甚至PB级的大规模数据集,在这些数据集中包含了大量的对生活、生产、科学研究等具有决策性作用的有用信息,那么如何从这些海量数据中提取信息是人们面临的一个重大的问题。显然,原先的集中式数据挖掘模式已无法满足人们的需求,这就需要探索出面向分布式数据挖掘的体系结构和工具。

二、知识网格

知识网格代表了数据网格的发展,为网格中分布式数据挖掘和抽取提供了高级工具和技术。知识网格是设计和实现分布式高性能知识发现应用环境的体系架构,用于执行网格中的数据挖掘,进行科学发现,发现有用的商业信息。

三、知识网格体系结构

知识网格体系结构是在Globus toolkits网格工具集和服务的基础上定义的。在Globus中,知识网格集成局部服务以提供全局服务。知识网格体系结构保证了数据挖掘工具和底层的网格机制和数据网格服务兼容。

知识网格服务由两层构成:核心知识网格层和高级知识网格层。

1.核心知识网格层

1.1知识目录服务(KDS)。该服务扩展了基本的Globus元数据目录服务(MDS),负责维护知识网格中数据和工具的描述。

要维护从一个特定数据仓库中挖掘出来的数据是不切实际的,但是维护一个已发现知识的数据库是非常有用的。这些信息被存放在知识仓库(KBR)中,但是描述它们的元数据仍由KDS管理。KDS不仅可用于搜索和访问原始数据,也可以发现原先已发现的知识,以便在数据改变时比较给定挖掘计算的输出,或者以递增的方式应用数据挖掘工具。

1.2资源分配和执行管理服务(RAEMS)。该服务用于在执行方案和可用资源间查找最佳映射,以满足应用需求(如计算能力、存储能力、主存、数据库、网络带宽和延迟)和网格约束。在执行方案激活之前,该层管理和协调应用的执行。该层并不是使用KDS和Globus MDS服务,而是直接基于Globus GRAM服务的。

2.高级知识网格层

2.1数据访问服务(DAS)。数据访问服务负责搜索、选择、抽取、转换和交付被挖掘的数据。搜索和选择服务是基于核心知识目录服务的。在用户需求和约束的基础上,数据访问服务自动进行查询和查找由数据挖掘工具分析的数据源。

2.2工具和算法访问服务(TAAS)。该服务负责数据挖掘工具和算法的搜索、选择和下载。描述其可用性、位置和配置的元数据存放在KMR中,并由KDS管理,而算法和工具则存放在每个知识网格结点的本地存储系统中。需要向其他用户导出数据挖掘工具的结点,首先必须使用KDS服务来发布该工具。还有其他的相关元数据,如参数、数据输入输出格式、实现的数据挖掘算法、资源请求和约束等。

3.3执行方案管理服务(EPMS)。执行方案是描述数据源、抽取工具、数据挖掘工具、可视化工具和KBR中的知识结果之间的数据流和交互的图形化表示。最简单的情况是,用户可使用可视化构造工具直接描述一个执行方案。然而,由于DAS和TAAS产生结果的多样性、数据和工具的位置、中间结果表示方法等的差异能产生多种不同的执行方案。因此,EPMS是由用户自行选择数据和程序的半自动化的工具,产生一系列满足用户、数据和算法需求及约束的多种可执行方案。

2.4知识表示服务(RPS)。知识可视化是数据挖掘过程中的重要步骤,它可以帮助用户解释发现的模式。该服务指出了如何产生、表示和可视化抽取的知识模型(关联规则、聚类模型、分类等)。结果元数据存放在由KDS管理的KMR中。KDS不仅用于搜索和访问原始数据,还可查找已经发现的知识。

四、执行管理

1.概念模型表示在知识网格内,UML活动图标形式化方法用于表示应用的概念模型,同时BPEL用于表示执行方案。活动图标表示构成应用逻辑的服务调用的高层次流通,而BPEL表示各种各样的服务实质上是如何调节和调用的。

2.执行计划表示

BPEL通常即可以表示抽象执行计划,也可以表示实例执行计划。在这个两个计划中,服务通过BPEL提供的partnerLinkType元件进行访问。这种元件能够将BPEL工作流与它包括的每项服务的ESDL描述联系起来。这两个执行计划的主要区别是:在抽象执行计划的BPEL文档中,服务的WSDL并不包括服务地点,而它们都包含在实例执行计划。

五、Weka4ws

Weka4ws是一个框架,它扩展了广泛应用的开发式资源Weka工具包,用于支持在WSRF-enabled网格上的分布式数据挖掘。为运行远程的数据挖掘算法和管理分布式计算,Weka4WS采纳了WSRF技术。Weka4ws用户界面支持当地和远程的数据挖掘任务的执行。在每一个计算节点上,一个与WSRF兼容的WS被用来曝光由Weka程序库提供的所有数据挖掘算法。

网格架构发展迅速,所支持的程序的种类日益多样化,可使用的工具也日趋完善和复杂。网格服务的发展方向已从原先的基本的面向计算的服务转到高级信息管理和知识发现服务上来。知识网格系统为分布式数据挖掘和基于网格服务的知识发现定义了一个集成的体系结构。该体系结构推动了地理位置分布的大规模数据集的数据挖掘。

参考文献:

知识网格下数字图书馆信息服务研究 第5篇

一、知识网格的概念及基本特征

知识网格是由Fran Berman最早提出来的, 指智能互联网环境, 是构筑在互联网上的新兴技术, 将互联网、大型数据库、远程设备和传感器结合在了一起, 可以使虚拟角色或用户自由获取知识, 发布和管理资源, 并为其他用户提供服务, 辅助实现创新, 合作工作的平台。我国对知识网格的研究开始于2001年, 随着近年来的不断发展, 知识网格技术受到了越来越多的人的关注, 知识网格的研究范围也在不断地扩大, 角度逐渐多样化, 涉及了管理学、教育学等各个领域, 并发展了三种网络模式, 数字化知识模式、信息集成网络模式、个性化信息模式。随着技术的发展, 知识网格的技术得到了极大限度的提升, 更多的人越来越习惯使用知识网格进行信息的搜索和资源的共享, 未来知识网格技术的优势会得到更多的利用, 数字图书馆可以利用这个平台扩大使用面[2]160。

知识网格具有很多自身独特的优势, 第一, 知识网格是一种全新的组织模式, 目的是工作协同和资源共享, 对网上的海量资料进行重组改造, 可以更好地传播资源, 开创了一种新的模式。第二, 知识网格使用统一的门户, 使用者通过单一的入口便可以进入, 并任意获取知识, 满足不同使用者的需求, 提供知识服务的多层次化, 易于用户的理解和接受。第三, 知识网格是在语义网和网格的基础上构架的, 网格、知识网格、语义是三个不可分割的因素, 网格侧重技术, 语义解决资源问题, 从语义到网格到知识网格是一个不断发展和融合的过程。

二、知识网格对数字图书馆信息服务的影响

1.优化数字图书馆的信息资源整合。知识网格和数字图书馆相比, 具有更高的科学信息的优化模式, 知识网格下的数字图书馆综合运用了高科技的资源系统, 将不同的载体和信息化资源整合, 实现了知识交流和资源共享, 通过网络技术用户可以管理所有的知识, 通过一个入口, 访问知识在网络的分布特点, 知识网格使共享资源更加普遍, 在知识网格的发展环境中, 可以优化信息的综合资源, 获取知识的方式主要有两种, 第一, 获取知识, 第二通过声音图像进行整合、解释、提取。面对海量的信息, 数字图书馆自动处理大量数据, 为信息资源的整合做出了大量准备, 网格可以快速处理大量信息, 并通过计算机的处理器, 将信号反馈回去。和计算机的技术相比, 知识网格是一个比较复杂的信息过滤、检索、处理的过程, 在知识网格的支持下, 消除了孤岛信息, 为管理和服务提供了高性能计算, 强大的功能满足了日常生活的需要, 也满足了不同的信息查询和咨询功能[3]162。

2.构筑数字图书馆的信息服务平台。数字图书馆通过网络的方式, 使用了高科技的支持, 将所有的文化资源连接起来, 降低了数字化资源的成本, 建立了网络和服务的成本, 使全国各个地方的信息资源得到高度共享, 为用户提供了智能平台, 并借助个性化的服务, 知识创新和再创在用户中产生, 数字图书馆资源包括很多知识服务的平台。第一, 数据的处理平台。主要用来发掘特色数据库, 向各个部门提供有效数据。第二, 服务读者的平台。这个平台比较重视服务网络的研究, 形式比较简单, 但是模式完整。第三, 检索和存储知识平台。知识网格存在于各种数据库中, 可以适应知识创新的需要。巨大的信息资源处理能力, 使资源库形成了一个统一整体, 节省了很多资金和成本, 在数字图书馆的信息服务平台上, 加强了人与人之间的交流, 存在国内和国外很多数据库, 实现了共享社会资源和统一管理资源, 获得了很多有用的信息和知识。知识网格拥有巨大的信息处理能力, 利用现有的数据库为智能信息提供平台。

3.实现数字图书馆的信息智能服务。与数字图书馆相比较, 知识网格帮助数字图书馆实现了信息智能化的服务目标, 网格对解决读者的问题有较好的效果, 可以自由地对知识单元进行组合, 同时获取新的知识, 知识网格的使用需要一个高级的软件, 相当于虚拟社区, 在虚拟社区里可以实现信息的智能化服务。在知识网格数字图书馆的智能化服务下, 是一种更为主动积极的方式, 这种方式更有利于个性化的服务, 具体来说, 知识网格是一个由用户需求组合而成的虚拟社区。一般情况下数字图书馆的检索比较单一, 技术落后, 数据库没有联系, 知识网格和数字图书馆的技术相结合, 辅助用户解决了很多问题, 对数字图书馆资源的合理配置、组织开发和服务优化起到了重要作用, 为用户提供了所需要的信息, 在不同的环境下促进了信息和服务的进步, 在知识网格的带动下, 实现了从信息网络服务转向知识服务的形式。知识网格为数字图书馆带来了更多的用户, 改变了传统的服务方式[4]29。

三、知识网格下数字图书馆信息服务的策略

1.充分认识知识网格的特点, 提升知识的服务水平。知识网格基于数字图书馆的信息服务有许多特点, 共同支持了数字图书馆为用户提供更高质量的服务。第一, 运用知识网格促成数字图书馆形成一种全新的知识理念模式和知识组织形式。知识网格的本质就是指知识资源的协同和共享, 通过新的技术方法实现共享的环境, 促进知识的利用和传播, 实现知识的挖掘、传播和组织作为本身的目标。它是一种全新的理念和模式, 在知识网格的技术中得到了越来越广泛的利用。第二, 通过知识网格以语义和网格为基础构架。语义和网格不是独立存在的, 而是知识网格中的两个基本元素, 二者是一种融合和发展的关系, 从不同的角度为资源服务, 知识网格实现了两者之间最好的有机融合, 实现了数字图书馆的服务目的。第三, 建立知识网格下的数字图书馆, 主要以信息组织为知识基础。数字图书馆是用户信息的主要来源, 为用户提供了极大的方便, 也是知识网格的重要组成部分, 作为新型的知识网络体系, 脱离不了现有的信息资源, 不同资源的数据集合是形成的语义资料, 是数字图书馆的主体资源。第四, 知识网格下的数字图书馆以为知识服务为最终目标。知识网格为知识提供了一个更好的技术平台和资源整合, 实现了语义关联的系统资源, 服务是一种以知识的检索为目的的方式, 是知识网格的应用, 不同的服务目的不同的知识服务层次可以通过形象化、可视化的形式展现出来[5]11。

2.合理运用现代科技的优势, 提升信息服务的科技水平。数字图书馆属于高新技术, 以网络为传播媒介, 数字图书馆知识的网络服务平台是由计算机网格和数据网格组成的, 存储了不同的资源和数据。知识网格在数字图书馆中的应用包含了应用社会、经济学原理、人类认知等各个方面的内容, 知识网格对信息检索、挖掘、过滤等技术领域更广阔, 比互联网计算机的功能更为强大。

知识网格下的数字图书馆开展信息服务的方法很多, 从其电子图书馆的发展中可以看出, 数字图书馆由信息到知识服务的转变便为与时俱进的趋势, 在环境中真正关注自己需要的信息, 必须要适应服务的需求。使用信息网络技术推动数字图书馆的普及, 通过推送技术、多语种信息技术和导航库技术实现数字图书馆的服务, 从文献知识实现服务知识, 对信息资源进一步进行加工, 使用信息知识的组织、重组和分析为基础, 解决用户的环境问题。在用户最需要的时候将用户最需要的知识传送给用户。数字图书馆是信息知识的主体, 针对提供高质量的服务是知识网格工作的一部分, 是对读者服务的一种发展和深化, 将图书馆看成一个整体。构建数字图书馆层次化的知识服务平台。知识网格的发展到现在并未得到完全的普及, 但是这项技术为用户带来了极大的方便, 属于新兴领域的新生技术, 但是其优越性已得到了很好的体现, 在数字图书馆的服务中发挥出了巨大作用, 但是同时也面临着较大的挑战, 知识网格下的数字图书馆如何发出最大的优势是未来需要考虑的问题,

数字图书馆的发展前景良好, 网格技术的普及也依赖于更高性能的计算机, 数字图书馆的宗旨是服务于广大用户, 使更多的用户更加满意, 充分利用知识网格, 实现信息的共享, 方便用户的查询、搜索。知识网格将零散的、分散的知识组合成整体的、系统的, 为资源共享的发展带来了良好的发展空间。

摘要:本论文论述了知识网格的发展态势, 分析了知识网格对数字图书馆的影响, 根据以知识网格为基础的数字图书馆信息服务的特点, 论述了开展信息服务的方法。

关键词:知识网格,数字图书馆,信息服务研究

参考文献

[1]王平.知识网格技术与图书馆信息资源的组织开发[J].现代情报, 2006 (7) .

[2]顾洁, 钱昆.基于知识网格的图书馆知识管理探讨[J].长春师范学院学报, 2007 (6) .

[3]马灿, 刘昆雄.知识经济时代图书馆信息资源管理发展新趋势——知识网格管理[J].内蒙古科技与经济, 2007 (8) .

[4]郭琳.利用知识网格构建数字图书馆知识服务平台[J].情报资料工作, 2005 (2) .

知识网格 第6篇

案例推理CBR (Case Based Reasoning) 是人工智能中一种重要的基于知识的问题求解和学习方法。最早由Roger Schank及其学生从认知学角度提出, 是一种基于记忆且利用过去的案例和经验来解决新问题的类比推理, 包括案例检索、案例重用、案例修正、案例保留四个工作过程[1,2];在强调经验性求解问题方面具有明显优势, 因此, 它已广泛应用于故障诊断、医疗诊断、游戏、电路机械设计等多个领域。但现有的CBR系统大多采用静态框架来描述案例, 存在难以扩展、可重构性、学习性差等缺陷。

文献[3]利用Java和XML等分布式对象技术虽实现了分布式案例库的构建, 提高了开发效率及模块重用性, 但仍采用的是单一案例库的推理, 而本文讨论的农业病虫害诊断与防治案例推理, 需多领域和多学科的专业知识协同处理, 仅靠单一案例库的诊断知识或仅抽取局部视图进行诊断是不全面不科学的。因此, 研究知识网格环境下基于本体的分布式多案例库的CBR诊断系统对于解决单一案例库诊断的局限性、实现不同单位间农业知识的共享和重用, 具有重要理论意义和应用价值。

1案例的知识表示存在的问题

案例的知识表示是CBR系统首要解决的问题。案例的内容随不同领域具体求解略有差异, 简单情况下一个案例就是产生特定结果的一系列属性特征。在具体应用时, 案例可采用框架、语义网络或面向对象等形式表示。

目前的CBR系统大都采用静态框架来描述案例, 至少存在以下三方面的缺点[4,5,6,7,8,9]:①许多系统都采用C/S结构, 只能在局域网内使用, 相同领域知识描述模型不同、存储管理各异, 形成一个个“信息孤岛”, 无法实现跨部门、跨行业的知识共享、重用和集成。②案例表达模型及推理过程扩展性和通用性差。案例模式过分依赖领域并固定于程序之中, 模式的细微变化都将导致修改大量的程序代码, 软件可重用性差, 导致了单位工作效率低、开发维护成本偏高。③信息资源语义异构。一些系统虽然采用分布式技术, 但对不同的信息源使用多种术语和不同结构表示同一概念, 而同一个概念在不同的信息源中表示的含义各异, 各信息源的分布自治性, 隐含的关系难以体现, 致使案例网络资源的互操作与语义共享方面依然存在缺陷。不过本体技术的出现可有效解决上述问题。

2本体概述

Studer对本体的定义“本体是共享概念模型的形式化规范说明”。它包含四层含义:概念化、明确、形式化和共享[10]。

本体表示方法具有对逻辑推理的支持及良好的概念层次结构, 能够从知识层次和语义上描述信息系统的概念模型, 具有规范、通用、独立、可重用、可进化、可共享等优点。各领域知识利用本体创建语义模型, 可实现同一领域不同系统间信息的语义共享或集成, 在信息孤岛之间搭建了语义桥梁;通过语义自描述性可自动识别案例模式, 获取案例信息, 解决了案例获取的瓶颈;还可以对CBR推理过程进行建模, 实现软件复用提高系统开发效率。

知识网格是一个智能的、可支持的网络应用环境, 能使用户有效地获取、发布、共享和管理知识, 为用户和其它服务提供所需的知识服务, 并以服务为向导辅助实现知识创新、解决问题、协同工作和决策支持[11]。知识是知识网格环境下实现知识服务的基础, 如何表示和处理知识是知识网格的核心, 所以知识网格构建中首先要解决的关键问题是选择具有形式化的、无二义的、有效的知识表示方法, 才可以在此基础上实现知识的共享和管理, 并通过后台推理与解释机制提供所需的知识服务[12]。

本体具有描述特殊领域知识和关系的能力, 并能够满足知识网格环境下知识表示的需要。即本体能够描述领域概念的属性、层次和实例, 并约束语义描述结果, 采用通用的术语对多个数据源上的异构信息资源进行重新编码、转换, 以确保领域知识的获取、共享以及重用, 因此, 本体通过建立在语义层面上描述信息资源的概念, 模型建模工具以实现多信息源的语义集成功能[13]。本体与知识网格融合具体包括:①对现实世界中各种相关概念进行抽象, 建立概念模型;②为网格内各信息源提供丰富无歧异的词汇定义、概念视图及概念间的约束关系;③采用形式化的方法, 构建共同认可的、公认的相关领域知识概念集, 使领域知识共享重用;④进一步完善语义描述和本体的映射机制, 实现网格内相关信息源的互转换, 提高本体异构信息识别和管理能力。本体与知识网格融合有效解决了上述传统CBR系统的存在的缺陷。

3知识网格环境下基于本体的案例表示

3.1本体建模

本体建模是根据具体应用需求建立共同认可的领域概念及明确概念间联系的过程。本体建模方法有:自上向下法、自下向上法和综合法等三种。考虑到存储在分布式案例库中异构类型案例定义的基本术语和元数据的特点, 本文采用自上而下的建模方法, 即从某领域中高度抽象的概念 (元本体) 开始, 在概念的约束下通过添加子类将这些概念细化, 依次构建下一层本体。根据应用需求本文把本体分为四个层次:元本体、领域本体、任务-方法本体、本体目录。其中元本体、领域本体、本体目录用来描述陈述性知识, 任务-方法本体描述过程性知识。

元本体在本体层次结构的最上层, 它提供了知识表示基本框架和全局约束。采用OWL语言设计元本体时, 先定义基本概念类, 如服务器、服务器组、案例、槽、索引槽、数据槽、方案槽、问题槽等, 这些基本概念都与具体应用领域无关。接着定义基本概念类的槽 (对象和数据属性) 和全局约束, 然后建立基本概念类之间的联系, 并用恰当的知识表示方法进行描述。

领域本体描述特定领域案例的特征, 并实例化元本体中的概念类元素。在元本体框架下每个服务器都可以灵活定义自身的案例结构。

任务-方法本体是通过把CBR推理过程抽象为由不同任务和方法组成的CBR任务结构, 根据映射规则继而形式化为任务-方法本体的概念模型。该本体把推理活动的过程性知识和案例信息的陈述性知识进行了分离, 有效重用CBR推理过程。

本体目录记录案例库在知识网格中的位置信息, 以便一个案例推理服务器能够准确定位远程服务器并访问其案例库。

本体有多种表示方法, 如Myo-Myo Naing等人提出采用六元素[11]方法来描述知识本体系统。该系统包含六个元素{C, AC, R, AR, H, X}。其中C、R、AC、AR、H、X等符号表示的含义依次为:一组对象概念集合;概念cp和cq之间联系的集合;每个概念的属性集合;每个联系的属性集合;所派生的概念层次体系;公理集合。根据应用领域的需要, 本文只使用了其中的三个元素分别为Cfddc、Rfddc、Hfddc。系统部分元本体和领域本体模型如下:

Fddc={Cfddc, Rfddc, Hfddc}

其中:Cfddc={事物、服务器组、服务器、案例、槽、数据槽、索引槽、问题槽、方案槽、…};

Rfddc={类别 (服务器, 台式服务器|机架式服务器|刀片式服务器) ,

组成 (索引, IP地址|机器名称|所属部门|…) ,

组成 (案例, 案例类型|所属领域|问题槽|方案槽|索引槽|服务对象|…) ,

组成 (数据, 文本|图型图像|视频|声音|…) ,

组成 (部位, 头部|体表|尾部|内脏|眼部|嘴部|…) ,

适用范围 (案例, 案例编号|鱼类|贝类|虾类|藻类|…) ,

组成 (检测方法, 眼测|镜检剖|剖检|…) ,

组成 (水质环境, 淡水|海水|淡海混合水|溶氧量|水色|水PH值|养殖密度|…) ,

发生地点 (地点, 网箱|滩涂|池塘|高位池|集约化工厂|浅海|河流|湖泊|…) ,

…};

Hfddc={ (事物, 农业) , (农业, 水产) , (水产, 鱼类) , (鱼类, 罗非鱼) , …}

例如本文在不同的服务器上分别定义了两个海洋鱼类病虫害诊断案例Fddc (Fish disease diagnosis case) 分别为fddc1和fddc2。它们都是基本本体Case的实例。

fddc1={本地、台式服务器、IP地址、网络协议、案例编号、罗非鱼、疾病诊断、发生部位、疾病特征、发生时间、集约化工厂、规模、水质环境、镜检、防治方法、…};

fddc2={远程、刀片式服务器、IP地址、网络协议、案例编号、石斑鱼、疾病诊断、发生部位、疾病特征、发生时间、浅海、规模、水质环境、剖检、防治方法、…};

可以用RDF/RDFS 构词来描述上述农业知识本体所涉及的相关概念、特征及概念间的联系, 以XML格式序列化表示。

3.2案例表示

根据上述知识表示方案, 农业领域专家利用案例元数据的定义来描述案例的领域特性。若领域专家想在某个案例推理服务器上构建一个新的案例类型, 知识表示过程为:①定义构成案例的槽, 即依领域案例属性定义槽、问题槽、索引槽、方案槽等元本体的实例。②利用案例槽实例定义案例本体, 同时把案例本体有关信息保存在本体库中。如果另有领域专家想在远程服务器上创建相同类型的案例, 其操作过程为:在知识网格内查询准备定义的案例类型是否已存在于本体库中, 若发现此类型案例本体已存在, 且能够满足它的知识表示需要, 只须在该本体库中包含该案例本体, 否则根据知识表示方法和应用需求建立新的案例本体。对于相同属性而术语不同的案例, 要定义同义联系。

4知识网格环境下的基于本体的分布式多案例库的CBR系统架构

根据知识网格与本体知识表示的特点, 知识网格环境下的基于本体的分布式多案例库的CBR系统架构如图1所示。

该系统架构主要包括两个方面:网格知识发现与服务, 分布式案例推理服务器。其中网格知识发现是一种并行分布式的知识发现模式。它把网络上分散分布的数据挖掘算法、中间件、工具、推理与解释机制等整合起来, 借助本体概念化后, 运用元数据对上述元素重新组织, 构建一个高度集成的知识发现体系, 并通过后台推理与解释机制提供按需的知识服务。网格知识发现与服务主要用来解决和集成“获取、建模、重用、检索、发布和管理”等知识生存期的关键问题, 给用户提供一个灵活的、可扩展的且容易重用的知识服务架构。

分布式案例推理服务器是将知识网格特征与基于本体的案例表示、案例推理有机结合, 有效解决传统案例推理过程中出现的问题。每个案例推理服务器都由各自独立的案例库和本体库组成, 以保存案例本体所需的设计知识。网络用户能通过任一案例推理服务器对所有案例库中的相似案例进行匹配检索, 得到最佳案例用来协同诊断农业领域的病虫害问题。

4.1案例推理服务器的设计

案例推理服务器可看作为分布在网格中一个个基于本体的案例推理系统。该系统架构抽取了CBR应用系统的基本特征, 提取其公共模型作为架构的基本功能类, 具有独立于领域和推理任务的特性。每个案例推理服务器都由各自独立的案例库和本体库组成, 以保存案例本体所需的设计知识。它提供的服务包括知识源和案例对象库定义、知识存取、案例推理、元数据管理、案例分析和展现、案例推理引擎等。此外还定义了构建基于本体的CBR应用系统的模块单元, 提供了CBR系统中数据和元数据交换的方法。其体系结构如图2所示。

4.1.1 知识源

推理系统的知识源由元本体、领域本体、本体目录和任务-方法本体组成, 在具体应用中可根据前面本体建模的方法进行构建相关本体。

4.1.2 知识存取

知识存取分为三部分:①领域本体案例知识的存取;②案例位置信息的存取;③任务方法知识的加载。知识存取过程都是通过RACER推理机对知识源中本体进行访问。

案例知识存取模块负责领域案例知识存取, 它通过案例表达模型与领域本体间的映射机制, 在案例对象库和领域本体间建立连接关系。为克服传统CBR系统的案例模式存在的缺陷, 设计了一个独立于案例模式的案例表达模型, 利用本体语义自动识别案例的模式, 屏蔽了案例模式间的差异, 提供了通用案例知识存取管理, 以达到重用案例存取过程的目的。

案例位置信息存取模块负责在服务器本体定义中包含有案例库的地址信息, 还记录该服务器中存储的案例类型。存储有相同案例类型的服务器构成一个逻辑服务器组。

任务-方法加载模块负责任务知识加载。它把CBR推理所需的过程性知识从任务-方法本体中加载到任务-方法对象模型中, 转换为解决问题的可执行任务序列并传给案例推理模块。通过在任务-方法本体上定义推理任务和相应方法, 推理过程中自动调用并执行, 有效减少开发者开发类似的CBR系统的重复性工作, 提高了软件的重用性。

4.1.3 案例对象库

通过案例知识存取模块, 将领域本体中的陈述性知识以案例对象的形式加载到案例库中, 故案例库也称为案例对象库。它的主要功能有:①维护和管理案例对象;②封装了案例知识存取模块对本体的操作, 为访问案例对象提供高层接口;③提供系统运行时案例对象的数据备份功能。

4.1.4 案例推理

案例推理是CBR系统的核心部分。它是筛选过去的成功经验或案例数据并重用它的解决方案来求解与之相似的新问题。其它各个模块和操作者都是围绕它进行工作:

① 任务方法加载模块提供推理所需的任务对象序列。

② 案例对象库提供原有案例对象的集合。

③ 案例匹配检索, 根据当前的问题需要, 案例推理服务器从分布式案例对象库中提取与待求解诊断问题相关的所有诊断案例信息, 结合基于本体的案例知识表示特点将案例分为简单概念和特征属性方面, 计算从案例库中提取的案例与查询案例之间的相似度, 得到若干最相似案例组成的案例集。按照案例相似度高低进行排序, 通过案例发布和案例分析模块协助用户进行分析, 集成匹配结果, 得出最佳的经验案例。

④ 案例重用, 将从任务方法加载模块中提取最佳经验案例的解决方案添加到问题案例中, 用户修改后, 进行方案重用。

⑤ 案例修正, 根据相似度计算, 若该方案符合当前问题的求解需要, 则得到待解问题的建议方案。否则推理系统激活案例修改规则对此方案进行修改或重新设计, 以调整案例集的解决方案, 再进行检索和重用。如果用户认为差异太大, 问题解决失败了, 则在解决方案中写出失败的教训, 求解过程终止。

⑥ 案例维护, 求解方案经过实际应用后, 根据应用效果和应用策略, 分析新案例的经验或知识是否有保留的价值, 若有必要则按一定的存储策略将其纳入案例对象库中, 实现案例库的不断更新、完善。

4.1.5 案例分析和展现

得到最为相似案例集后, 通过案例数据展示工具的报表或曲线方式对各案例特征进行对比分析, 让用户直观的选择最佳案例。若用曲线的方式进行结果展示时, 需要为展示组件提供如插值等基本的处理操作。

4.1.6 本体、本体目录及元数据管理

不同企事业单位可能采用不同的知识表示方案, 为了集成来自于不同数据源的农业病虫害案例, 需要在案例库之间建立一套共同的概念化规范说明 (共享本体建模约定) , 以此来约束每个案例库中的待创建的新案例, 使之规范化。本体采用OWL语言描述, 本体数据保存在OWL文件中, 服务器通Jena实现对本体的操作[12]。通过本体管理工具, 用户可以浏览、增加、删除或修改本体数据。

元数据是描述数据的数据, 也是CBR系统的一个重要组成部分。它描述了案例对象库的建立、管理, 案例发布和展示, 案例推理, 案例维护等整个知识生命周期中所需的信息。

4.2独立于领域和任务的可复用CBR系统架构

在3.1节本体建模中基本本体、领域本体、本体目录用来描述陈述性知识, 任务-方法本体描述过程性知识, 并且领域本体和任务-方法本体分别与具体的任务和领域无关。推理活动的过程性知识存储在独立于领域的任务-方法本体中, 并与案例信息的陈述性知识无关, 从而实现框架中的陈述性知识和过程性知识分离开。因此, 该框架在网格范围内可以连接到不同的领域本体或任务-方法本体中不同的任务方法序列, 研发出服务于不同领域和不同推理过程的CBR应用系统。这种方式减少了类似推理过程的重复性开发, 且增加了的可维护性和可重用性。

5结束语

本文分析了传统CBR系统及案例表示的不足, 提出了知识网格环境下基于本体的分布式多案例推理系统架构, 详细探讨了知识网格环境下本体建模和分布式多案例推理系统架构关键组成部分——基于本体的案例推理服务器及其构成模块的功能。通过引入基于本体的案例推理服务器和任务-方法本体, 将过程性知识和案例信息的陈述性知识进行了分离, 有效解决案例推理重用的问题;在知识网格案例库之间建立了共享本体, 在共享本体指导下各案例库可以灵活地表达所涉及的领域知识, 实现知识集成。知识网格环境下基于本体的分布式多案例推理系统采用Web Service和本体技术构建, 具有开放性和扩展性强的优点, 能够实现网格异构环境下的软件重用和系统集成, 有效解决了传统案例推理系统存在的问题, 实现了各单位之间知识的有效共享和重用。

摘要:提出知识网格环境下基于本体的分布式多案例推理系统架构。该架构引入基于本体的案例推理服务器和任务-方法本体, 实现了过程性知识和陈述性知识分离, 有效地解决了案例推理重用问题;在案例推理服务器中共享本体约束指导下, 各案例库可以灵活地表达各自领域知识, 实现知识集成, 解决了传统案例推理系统知识局限性问题, 实现了各企事业单位之间知识共享和重用。该架构是开放的并采用Web Service技术构建, 能够实现网格异构环境下系统集成, 具有很强的扩展性。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【知识网格】相关文章:

网格管理相关知识08-07

网格长网格员职责08-02

社区网格长、网格管理员考核办法07-03

光明社区第四网格网格化管理小结06-08

三角网格05-07

网格环境06-06

网格细化06-10

网格生成06-23

数据网格08-05

网格系统08-13

上一篇:化工科技创新成果简介下一篇:加载方法论文