数据网格范文

2024-08-05

数据网格范文(精选10篇)

数据网格 第1篇

1.1 分布式数据挖掘

目前随着企业信息化建设步伐的加快,人类对信息的需求日益迫切,然而面对这种信息的海洋,人们开始很迷茫:如此浩瀚的信息海洋中到底哪些信息对我们企业的发展趋势和经营决策有用呢?就需要一种有效的工具———数据挖掘去分析、处理我们现有的数据,以寻找出我们感兴趣的知识来帮助我们分析、决策。然而现代复杂的科学计算领域如:气象科学、高能物理,地球科学,医药开发等应用产生了海量的数据。通常这些数据都是地理上分布,异构,动态的,其复杂性也越来越高,若用已有的集中式数据挖掘方法已不能满足应用的要求。

为了解决以上问题,人们开始考虑如何将海量数据和挖掘任务分解在其他计算机上,因此分布式数据挖掘就诞生了。分布式数据挖掘(DDM)就是使用分布式计算技术,从分布式数据库中发现知识的过程。然而这种传统的分布式数据挖掘系统将分布式存储的数据重新集中构成一个临时的数据仓库或者是数据集市,再由集中式的挖掘算法对其进行挖掘。这种方式会造成数据的安全性,保密性方面的问题,也给网络通信带宽提出了很高的要求,而且在现实应用环境中,把大规模的分布式数据移动到一个集中式平台上是非常低效、耗时的。同时,企业数据规模的不断增大,硬件的处理速度不能满足应用的需求;企业信息化建设的成本不断增加成为制约企业信息化建设的两大瓶颈。

1.2 网格计算

网格技术的出现从根本上解决了以上两个问题。

首先,网格计算作为一种分布式计算技术,它可以把计算数据根据CPU执行速度和内存的大小各异分割成网格环境中的若干“小片”,而计算这些“小片”的软件通常是一个预先编制好的程序,不同节点的计算机可以根据自己的处理能力下载一个或多个数据片段和程序,并行处理该节点的数据片段和程序。只要节点的计算机用户不使用计算机时,程序就会工作。网格技术可以把这些闲置的计算机合并为一台具有超级计算能力的计算机,以满足复杂科学计算和商业应用。

其次,网格技术在不扩大硬件规模的基础上,利用现有的硬件资源,把网格环境中各个闲置的CPU利用起来,而价格不到一台相当运算能力的超级计算机的1/100,从而可以减低硬件成本。

1.3 网格数据挖掘的基本概念

基于网格的数据挖掘系统建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律。这个网格计算环境提供特殊的数据管理、数据存储、数据复制和安全监控的功能。基于网格的数据挖掘的基本过程分为以下三种:1)数据预处理。数据预处理阶段主要完成从网格环境中收集广域分布的数据和计算资源,并对原始数据进行归档处理、更正校对、过滤清理和数据的转换、合并。最后再对经过处理后的数据进行归档处理。2)数据的分析与挖掘。这个阶段主要是利用网格技术对处理后的数据进行分析、概括和挖掘,生成关联规则,发现新的数据关系等,并归档概括出来的数据。3)模式的评价。这阶段对处理后的数据和归纳后的数据再次进行分析,得出一些数据模式,并评价数据挖掘结果的有效性和可靠性,提交得出的结论。

1.4 网格数据挖掘的特点

1)超级计算能力。网格计算能够为高能物理、地球科学、航空设计、资源探测、电子商务等领域提供超级的计算能力。

2)异构性。网格涉及的资源类型多种多样,包括各类主机和操作系统。

3)具有分布式和动态性,数据分布范围广。在网格计算环境中,广域分布的各种资源都是动态创建和删除的。因此,网格的数据挖掘系统具备分布性和动态性,能够灵活调整数据搜索范围;另外,由于数据分布性特点,数据挖掘算法是以分布式计算的方式计算并分析数据的。

4)具有高性能的I/O负载平衡能力。对广域分布的海量数据处理的过程中,无论是数据的远程传输还是数据挖掘过程中的数据处理、分析挖掘、模式评价等过程、数据的工作流都是很大的。这需要网格提供网络负载调度管理和高性能的I/O负载平衡能力。

5)高效的数据存储服务、传输服务和复制管理。在数据挖掘过程中要进行大量数据集存储、复制的时候、网格能够提供高效的广域网数据高速缓存服务以解决网络带宽管理的问题;数据传输策略能够支持多种存储系统,并行数据传输,部分文件传输和数据重传、容错能力;数据复制策略能在不同的站点之间高速移动和复制数据,保持远程数据拷贝的一致性。

6)网络安全性要求更高。网格上的资源是动态连接到Internet上的,不同网格站点之间的通信和用户向网格计算环境提交任务和监控管理任务也是通过Internate连接的。同时,数据挖掘涉及广域分布的属于不同虚拟组织的数据源,数据的安全性和访问权限问题至关重要。在数据存储、传输、复制管理和网络通信过程中,网格操作系统必须具有抗拒各种非法攻击和入侵的能力,保证系统正常高效运行和各种信息的安全。因此,网格数据挖掘系统的安全性能要求更高,解决的方案也更复杂。

7)可扩展性。网格的可扩展性要求体现在规模、能力、兼容性等几个方面。在基于网格的数据挖掘系统设计时必须考虑到新的资源能否很自然的加入到网格中,并和原来的资源融合,共同发挥作用,不能减低网格计算的性能

2 相关概念及定义

2.1 关联规则、频繁项集的概念

定义1.关联规则

设I={i1,i2,...im}是由m个不同的项目组成的集合,给定一个事物数据库D,其中每个事物T是一组项目的集合,即T⊆I。一条关联规则就是形如A圯B的蕴涵式,其中A⇒I,B⊂I,并且A∩B=Ø,关联规则A圯⇒成立的条件是:

1)它具有支持度S,即事物数据库D中至少有S(概率P(A∪B))的事物包含A∪B。

2)它具有置信度C,即在事物数据库D包含A的事物中至少有C(概率P(B|A))的事物同时也包含B。

定义2.频繁项集

事物数据库D在给定最小支持度为σ时的频繁项目集合定义为:

定理1设X⊆I,Y⊆I,那么:

1)support(X)≥support(Y);

2)若Y是频繁集,则X也是频繁集;

3)若X不是频繁集,则Y也不是频繁集;

关联规则的集合:事物数据库在给定最小支持度σ和最小信任度γ时的关联规则的集合定义为:

关联规则挖掘就是在给定项目集I,事物数据库D,最小支持度σ和最小可信任度γ的情况下,求解R(D,σ,γ)的过程。

发现关联规则需要经历如下两个步骤:

1)找出所有频繁项集。

2)由频繁项集生成满足最小信任度阀值的规则。

其中挖掘和识别出所有频繁项集是该算法的核心,占整个计算量的绝大部分。

2.2 Apriori算法

Apriori算法是关联规则中的经典算法,有很多算法都是在Aprior的基础上改进的。

众所周知,由m个项目形成的不同的项集的数目可以达到2m-1个,尤其是在海量数据库中,这将是一个NP难度的问题。为了避免计算所有项集的支持度(实际上是频繁项集只占很少一部分),Apriori算法引入候选频繁项集的概念。若候选频繁K项集集合记为:Ck,频繁K项集的集合记为LK,m个项目构成的K项集的集合为Ckm

则三者之间满足关系:

根据定理1,可得构成候选频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”,所以在计算支持度时只计算候选频繁项集的支持度,因此在一定程度上减少了计算量。候选频繁K项集的集合Ck是指由已知的K-1项频繁集生成的有可能成为频繁项集的K项集组成的集合。

具体实现过程:

1)通过单趟扫描数据库D计算出各个1项集的支持度,从而得到频繁1项集构成的集合L1。

2)连接步:为了产生频繁K项集构成的集合Lk,预先生成一个候选频繁K项集的集合Ck。侯选频繁项集的集合由JOIN运算得到。若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…qk-1},并且当1≤k-1时,pi=qi,当i=k-1时,pk-1≠qk-1,则p∪q={p1,p2,…pk-2,qk-1}是Ck(候选K项集的集合)中的元素。

3)剪枝:出于Ck时Lk的超集,可能有些元素不是频繁的。Ck很庞大时会带来巨大的计算量,为减少Ck的规模,根据定理1的对于K项集有如下性质:任何非频繁的K-1项集必定不是频繁K项集的子集。所以,当候选集K项集的某个K-1项集不是Lk-1中的成员时,则该候选频繁项集不可能时频繁的,可以从Ck中删除。

4)通过单躺扫描数据库D,计算Ck中的各个项集的支持度。

5)将Ck中不满足最小支持度的项集删除,形成频繁K项集构成的集合Lk。

通过迭代循环,重复上述步骤2~5,直到不能产生新的频繁项集的集合时为止。

3 基于Apriori的网格平台关联规则算法设计

3.1 基本思想

本文的算法基于对关系数据库划分的思想。即把数据库划分成互不相交的若干块,每块包含若干条记录,网格中的每个节点负责处理一个分块。该划分与分布式数据库的分片不一定相同。若干网格节点可实现并行工作。每个子任务都采取Apriori算法求解频繁K-项集的方法求取对应分块包含的局部频繁项集。Apriori使用逐层搜索的迭代方法,即用K-项集搜索(k+1)-项集。为了得到K-项集Lk,需要Lk-1与自己作连接产生候选K-项集的集合Ck。这一步可以由多个子任务独立完成。而为了从Ck得到Lk所进行的阀值操作则必须由全局端进行,这将在实例分析部分结合实例说明。最后由全局控制端使用公式:

计算关联规则的置信度。其中support_count(A∪B)是包含项集A∪B的事物数,其值即为全局控制器得到频繁项集的支持度计数。support_count(A)是包含项集A的事物数,其值应是各个网格节点对应值的累加。

3.2 算法描述

整个数据挖掘程序分为全局控制器(位于启动该程序的机器上)和各个网格节点任务端(位于各台处理器上)两个部分。算法描述如下:

输入:数据挖掘任务

输出:关联规则

全局控制器:

各个网格节点任务端:

3.3 算法结果

算法结果与经典Apriori相同。

算法中对数据库的每个划分分别挖掘虽然增加了各个网格节点间的通信成本,但是由于网格技术合并了计算力,各个网格节点并行计算分配给自己的任务,总体上还是提高了效率。

而且由于算法对各个网格节点关联规则筛选都在全局端进行,这样既不会丢失有效的关联规则,也不会产生无效的关联规则。

3.4 实例分析

假设数据库化分成两块D1和D2(如图1所示),分别由两个网格节点计算处理,阀值为2、置信度为70%。

两个子任务构造的局部1-项集如图2所示。

全局控制器检验这两个局部1-项候选集,在两个局部候选集中的I4支持度计数低于支持度阀值2,但其和等于2,所以需要保留I4。如果只由局部候选集生成对应的频繁项集,则I4会被丢弃。故为了从Ck得到Lk所进行的阀值检验操作必须由全局端进行。产生的频繁1-项集如图3所示。

重复上述步骤最后得到频繁3-项集L3,如图4所示。

以{I1、I2、I5}为例,关联规则及各个任务对应的support_count(A)值如图5所示。

全局控制器根据图5的值和频繁3-项集的全局支持度计数计算置信度;

第1、2、3、6条规则是满足置信度的关联规则。

本例子中两个网格节点子任务同时完成,实际由于各个网格节点的处理能力差异和子任务所能构造的最大频繁集各异,两个网格节点的完成时间也不一样。先退出运算的节点可以向全局控制端申请新的数据挖掘任务。

4 结束语

与集中式数据挖掘相比,基于网格的数据挖掘系统可以通过合并计算力来提高效率。但这也产生了新问题:如何把数据挖掘任务分配给处理能力各异的各个网格节点、各个网格节点间如何实现同步、如何减低网格结点之间的通信成本。同时在各个网格节点计算出一个Ck后全局控制器都要将所有的Ck汇总筛选,统计其全局支持度。各个网格结点由于等待全局控制端的筛选而处于空闲状态,这样就减低了整个网格系统的性能。但是由于网格可以合并计算力,各个网格节点并行处理全局控制端分配给自己的任务,这样极大的提高了系统的性能。当数据规模相当大时,由于节点等待而减低的性能可以忽略不计。

参考文献

[1]Han Jiawei,Kamber M.Data Mining concepts Techniques,Second Edition[M].北京:机械工业出版社,2008.

[2]殷峰.网格关键技术及校园网格应用研究[M].成都:西南交通大学出版社,2007.

[3]郭小雪.基于网格服务的数据挖掘应用研究[J].微型电脑应用,2008(11).

[4]孙红梅,胡明生.基于网格的分布式数据挖掘模型研究[J].微处理机,2008(6).

空间数据库网格体系构造研究 第2篇

空间数据库网格体系构造研究

本文基于笔者多年从事地理信息系统的相关研究,以空间数据库为研究对象,深度探讨了网格空间数据库的体系架构,文章首先时空间数据网格产生的`背景进行了简要的阐述,向后分析了网格系统体系结构的组成,最后笔者结合空间数据库的特点,重点探讨了网格空间数据库系统的构建,全文既是笔者长期工作实践的技术总结,同时也是在实践基础上的理论升华成果,相信对从事相关工作的同行有着重要的参考价值和借鉴意义.

作 者:王斌 作者单位:四川大学,四川成都,610065刊 名:科技资讯英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(9)分类号:P2关键词:空间数据库 网格 体系

数据网格 第3篇

【关键词】 网格化 大数据 服务下沉 简政放权

一、背景与现状

大数据是一场革命,正在深刻改变我们的生活、工作和思维方式。大数据技术的发展与应用,对社会服务管理工作也产生了深远影响。党的十八届三中全会前瞻性地提出了创新社会治理体制的新要求,强调坚持平台治理、依法治理、综合治理和源头治理,并明确要求以网格化管理、社会化服务为方向,健全基层综合服务管理平台[1]。

近年来,福建省网格化平台和面向社区政务服务平台建设取得明显成效,有效支撑基层社会服务管理工作,但也存在平台部署层级低、服务窗口分散、统筹力度不足、建设运行成本高等问题,影响了平台的推广覆盖和效能的发挥。

2016年,为切实贯彻中央精神,福建省平潭综合实验区推行网格化城市管理模式,探索具有平潭特色的网格化社会服务管理新模式。福建省电子信息集团作为信息化建设等主力军,参与了平潭综合实验区网格化服务管理信息平台建设,依托政务数据的汇聚及开放共享,支撑政府宏观决策,以及大众创业、万众创新。本文就在搭建平潭综合实验区网格化服务管理平台过程中的主要技术进行阐述。

二、数据汇聚与共享

数据汇聚与共享,是网格化建设取得成功的先决条件。平潭综合实验区在网格化服务管理信息平台建设中,坚持创新应用的原则,通过融合运用互联网数据、政务数据、网格员采集的实时数据,建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现“一人一档、一组一档、一物一档、一城一档”,推动社会治理模式进步,提升政府服务和监管能力,实现政务服务下沉,方便群众就近办事,促进管理精准化和服务人性化,有效支撑“互联网+政务服务”。

政务数据是网格化服务管理信息平台的核心资源,以下就省、市两级政务数据汇聚共享机制,以及平潭的数据汇聚工作进行阐述。

2.1省、市两级政务数据汇聚与共享机制

省级网格化服务管理信息平台,实现了省级各厅局部门及各设区市的数据汇聚,侧重于监督和管理。首先,福建省各个厅局进行厅局数据汇聚,支撑自身业务的开展;而后,各厅局的数据汇聚至省级政务数据汇聚共享平台,并由汇聚共享平台向省级网格化服务管理信息平台开放,形成二次汇聚。

平潭实验区网格化服务管理信息平台是业务承载平台,统一支撑综合治理、城乡管理、政务服务等业务,区县、街镇、村居接入使用。此外,平潭实验区网格化服务管理信息平台实时将网格实时采集的人员、管理对象等数据,通过政务服务总线与省级网格化服务管理信息平台进行数据交换,并在省级平台形成二次汇聚。

2.2平潭综合实验区的数据汇聚工作

在平潭网格化建设中,对省网格化平台数据、本实验区各政府委办局的政务数据、互联网数据、网格实时采集等多种数据进行了汇聚。同时,将汇聚的数据进行共享开放,支撑政府决策,以及大众创业、万众创新。

汇聚工作是通过多级建库,逐步完善实现的,形式是多样化的,包括数据抽取、验证等。通过政务共享交换平台,将各类数据汇聚并形成汇集库(保留原始数据);在汇集库,通过对数据质量进行分析,对问题数据进行标记;依据统一字典,整合数据并形成整合库;从整合库中可共享给政府部门,以及向公众开放的数据,并存入共享库;另外,根据具体需要按照规则从共享库中抽取数据形成专题库,例如人口库、法人库、车辆库等等。

共享库和专题库是逐步形成的。首先,分析汇集库,分析成熟一张表就在共享库中建一张表;而后,根据实际应用需求,采集数据源汇聚到汇集库,经过清洗处理后存入共享库,再由共享库生成专题库支撑数据应用。按照以上步骤,不断充实共享库和专题库。其中,共享库中的数据安全按照逐表、逐字段、安全等级设定的方式进行监管,安全等级分为1-9九个级别。

三、网格化服务管理信息平台及其架构设计

平潭网格化服务管理信息平台,以政务数据元数据管理和数据生命周期管理为支撑,提供网格基础平台,支持快速生成综治、卫计、公安、民政、司法行政、人社、环保、住建、食品药品监管、消防、残联等网格化应用,实现多级业务联动[2],同时支持海量数据的存储和查询应用、分析挖掘等。以下就平台架构进行阐述。

3.1平台应用服务层(SaaS层)

应用服务层主要包括综合治理系统、政务服务系统、城乡管理系统、便民服务系统等网格化应用系统,该层以统一门户的形式提供服务,通过运用网络地图技术和现代信息技术,开展政务服务、社会治理、治安治理、治安防范等,维护社会和谐稳定。

政务服务方面,线上为居民提供“足不出户网上办事”窗口,提供跨服务机构的信息共享和业务协同;同时,借助社区服务站或其它市民服务网点校验和处理证照,真正实现“服务就在家门口”。此外,通过互联网门户和手机APP等手段,为居民提供线上和线下结合的民政低保申请、老年证系统受理等民生业务,在线上预约办理的基础上,实现线下办理业务下沉到社区。

便民服务方面,充分运用政务大数据成果,围绕“可信服务、众创空间、资源整合”引导平潭产业升级发展,在线上整合便民服务资源,如提供居民养老、家庭医生、海渔一张图等惠民服务。在线下将金融服务、水电煤等公共事务导入社区,使居民和社区互动更频繁,丰富居民与社区之间的互助,同时减少相关部门线下营业点的投入。

通过线上线下有机结合,创新终身式、立体化、智慧型和就近办理的市民服务模式,构建面向对象细分的个性化、主动化和人性化市民服务,打造面向全覆盖、全主题、全方式的规范化、专业化、高效化市民服务,拓展面向热点事件的精准便捷化市民服务。

3.2平台能力支撑层(PaaS层)

能力支撑层具有可扩展和开放的特性,支持与外部应用系统的集成,形成能力汇聚,从而以支撑应用层的各类大数据应用。该层通过整合位置服务平台、视频能力平台等省级公共平台的能力,为上层应用提供GIS服务能力和视频加载等能力;通过统一身份管理平台,健全用户安全体系,支持用户在一次登录后,可依靠认证令牌在综治、城乡、政务等不同平台之间切换。此外,平台支持与公安、运营商、银行等各类数据校验平台进行对接,提供实名认证服务。

网格基础平台是PaaS层的重要组成部分,统一提供网格划分、要素标识、对象管理、数据采集、事件流转、评价考核等基础功能;同时,其支持网格自动生成,支持依照行政区划、土地权属、人口、部件等数据,平台自动计算出相应的网格单元。此外,平台提供网格的合并、分割、边界调整、拓扑检查等功能,管理人员在自动计算结果的基础上人工调整后生成网格,并通过网格基础平台进行发布,供其他业务应用平台调用。

此外,平台采用Hadoop等大数据技术体系搭建。主要采用HBase和Hive技术,构建大数据混合计算子系统,其中,应用HBase技术构建实时查询模块,以支持海量政务数据的查询;应用Hive技术构建批处理分析模块,以支持业务分析。

3.3 数据服务层(DaaS层)

数据服务层,通过采用Hadoop技术体系中的HDFS作为文件存储平台,整体通过融合互联网数据、政务数据、网格采集实时数据,实现数据汇聚,提高政府公共服务水平。

政务数据方面,主要汇聚公安、经济发展、环境与国土资源、交通与建设、社会事业、市场监督管理、行政审批等部门的共享数据,形成围绕人、法人、部件、房屋等全项信息的基础数据,同时,构建标准地址库、城市基础数据库等数据库,为综合治理、城乡管理、政务服务等网格化应用提供基础数据服务。

此外,解决政府管理底数不清、情况不明的问题,也为政府决策提供了科学依据,提升了社会治理精细化水平。

网格实时采集数据是重要组成部分,网格实时采集数据指对网格内人、地、事、物、组织等信息全要素采集,包括网格内基本情况、社情民意和突发事件等,实现社会隐患主动排查、社会矛盾联动化解、特殊人群重点监管、基础设施动态管理[3]。网格数据采用统一标准,实现一次采集、多部门共用。各级部门授权社区采集数据,获取网格数据支撑业务处理。平潭综合实验区通过建立统一的标准地址库,大力推广二维码门楼牌,依托标准地址开展各类信息采集[2],网格员使用“岚岛网格”APP将实时采集到的人员、时间、物件、地理建筑信息等数据向平台汇聚,并共享数据,以减少信息重复采集,并保证数据的鲜活性。

3.4基础设施服务层(IaaS层)

即基础设施服务层,基于政务云资源,建设网格化服务管理信息平台,使平台具备弹性扩容的能力,承载不断增加的城市数据体系。该层通过云化主机、存储、网络等设备,提供计算、存储、计算负载管理、备份等服务,资源动态调整,按需提供基础云服务。

四、网格化保障体系建设

在建设网格化服务管理信息平台时,需着重建设安全保障体系,标准规范体系,大数据存储和建模体系等方面,它们是网格化服务管理体系成功建设并得以广泛推行的重要保障。

4.1安全保障体系

安全保障体系是网格化服务管理信息化的前提,建立安全保障体系是平台建设的先决条件,该体系包括身份认证、权限控制、安全审计、平台监控、故障报警、日志管理等安全保障方法[4]。同时,数据安全是“险中之险”,应加强信息安全保障体系建设,推动建立大数据应用的法规制度体系,明确各级的责任、义务与使用权限,合理界定数据的使用方式与范围,规范公共数据的采集、共享和应用,保障公共数据的公平、权威和可信,保护数据产权、安全和隐私。

4.2标准规范体系

标准规范体系的建立是平台信息资源整合共享及开展网格化业务的前提,该体系主要包括元数据内容规范、信息资源标识规范、公共数据元目录规范、信息资源分类及编码规范、数据交换格式设计规范、信息分类编码规范等。

五、总结

开展网格化建设,各级政府部门需坚持顶层设计,坚持资源整合,依托大数据技术和网格管理技术的融合应用,在各级各部门建立纵向加速横向整合,设立统一受理各部门窗口便民服务,推行服务下沉,方便群众就近办事;同时,平台建设需加强大数据运用,促进管理精准化和服务人性化,促进全面的管理信息化建设的规范化,增强社会管理的规范化水平,主动适应信息化社会的发展趋势;此外,还需不断完善标准体系,各类基础设施建设,促进互联互通和数据集成应用,不断提高动态控制和服务管理水平,从而实现“群众生活和办事更方便,群众表达诉求渠道更通畅,群众感觉更平安、更幸福”的目标。

参 考 文 献

[1]中华人民共和国国民经济和社会发展第十三个五年规划纲要.新华社. 2016

[2]福建省人民政府办公厅印发《关于加快网格化服务管理信息平台和社区服务窗口整合建设的实施意见》的通知. 中国福建省委办公厅. 2016

[3]韩江.街道、社区网格化综合治理模式的实践[J].特区实践与理论,2012,(01)

基于网格的数据挖掘研究 第4篇

网格就是一种集成的计算与资源环境, 或者说是一个计算资源池。网格能够吸收各种计算资源, 并把他们转化为随处可得的、可靠的、标准的, 同时还是经济的计算能力。网格的发展经历了3个阶段:第一阶段是网格的萌芽阶段, 开始于90年代早期, 研究内容是关于千兆网试验床以及一些元计算方面的工作;第二阶段是一些早期的试验, 时间大概从90年代中期到晚期, 出现了一些比较重要的开创性和奠基性的研究项目, 比如I-WAY、Globus、Legion等;目前是网格计算的迅速发展阶段, 关于网格的研究、开发和应用项目大量出现, 出现了影响很大的组织全球网格论坛GGF (Global Grid Forum) , 同时网格计算也不再仅仅局限于科学研究, 工业界与学术界联盟, 正致力于使网格计算在更广泛的领域得到推广和应用。

网格具备以下特点:分布与共享、自相似性、动态性与多样性、自治性与管理的多元性。

2 网格系统结构

网格体系机构是关于如何建造网格的技术, 包括对网格的基本组成部分和各部分功能的定义和描述, 网格各部分相互关系与集成方法的规定, 网格有效运行机制的刻画等。显然, 只有建立合理的网格体系结构, 才能够设计和建造好网格, 才能够使网格有效地发挥作用。

2.1 网格系统结构的层次结构

网格系统可以分为资源层、中间件层 (网格操作系统层) 、工具环境层和应用层如图1所示:

(1) 网格资源是构成网格系统的基础设施, 主要包括网格结点和宽带网络系统, 网格结点包括各种计算资源, 这些计算资源通过网络设备连接起来, 具有分布和异构特性, 而宽带网络系统是在网格系统是在网格系统中提供高性能通信的必要手段。

(2) 网格中间件是指一系列协议和服务软件, 其功能是屏蔽网格资源层中计算资源分布、异构特性, 向网格应用层提供透明、一致的使用接口, 网格中间件层也称为网络操作系统, 其核心服务包括网格资源的管理分配、信息优化、任务调度、存储访问、安全控制、质量服务等。

(3) 网格必须提供良好的应用开发工具环境, 如C++、Java等语言, MPI、PVM等应用开发界面, 并支持消息传递、分布共享内存等多种编程模型。

(4) 网格应用体现用户需求, 在网格操作系统的支持下, 网格用户可以使用其提供的可视化工具或环境开发各种应用系统。

2.2 两种网格体系结构

网格体系结构的设计已有了一定的研究, 其中5层沙漏结构和开放网格服务体系结构 (Open Grid Service Architecture) 是最重要最具代表性的两个。

(1) 5层沙漏结构。五层沙漏结构是以协议为中心的“协议结构”, 根据层次协议结构中各组成部分与共享资源的距离, 将对共享资源进行操作、管理和使用的功能分散在5个不同的层次, 分别是构造层 (fabric) 、连接层 (connectivity) 、资源层 (resourece) 、汇集层 (collective) 和应用层 (application) 。5层沙漏结构是一个抽象层次结构, 它的一个重要特点就是“沙漏”形状, 究其原因在于各层协议的数量不同, 对于最核心的部分———沙漏的瓶颈, 定义核心抽象和协议的一个小集合。在5层结构中, 资源层和连接层共同组成这一核心的瓶颈部分。

(2) 开放网格服务体系结构。开放网格服务结构OGSA (Open Grid Service Architecture) 是继5层沙漏结构之后最重要、也是目前最新的一种网格体系结构, 被称为下一代的网格结构。

OGSA最突出的思想就是以“服务”为中心。在OGSA框架中, 将一切都抽象为服务。这种观念, 有利于通过统一的标准结构来管理和使用网格。考虑到网格环境的具体特点, OGSA的原来Web Service服务概念的基础上提出了“网格服务 (Grid Service) ”的概念, 用于解决服务发现、动态服务创建、服务生命周期管理等与临时服务有关的问题。

基于网格服务的概念, OGSA将整个网格看作是“网格服务”的集合, 但是这个集合不是一成不变的, 而是可以扩展的, 这反映了网格的动态性。网格服务通过定义接口来完成不同的功能, 服务数据是关于网格服务实例的信息, 因此网格服务可以简单地表示为“网格服务=接口/行为+服务数据”如图2所示, 这是对网格服务的简单描述。目前OGSA的定义中, 只有Grid Service接口是必须的, 而其他的接口比如Notification Source、Notification Sink等都是可选的。

目前, 网格服务提供的接口还比较有限, OGSA还在不断的完善过程之中, 下一步将考虑扩充管理、安全等方面的内容。

2.3 基于OGSA的数据挖掘事例

下面给出一个数据挖掘的例子如图3所示, 它是基于OGSA的网格服务, 展示了基本的远程服务的发现、激发、生命周期管理等功能。

(1) 查找符合要求的服务。用户在虚拟组织所维护的注册表中查找数据挖掘功能 (包括相应存储空间能力) 的提供者。在查找过程中, 用户可以对费用、性能、服务提供地点等各个方面提出要求。

(2) 得到服务句柄。注册服务根据用户提出的要求, 在众多的服务提供者中进行筛选, 最后返回满足要求的服务提供者。

(3) 创建服务实例请求。用户根据返回的服务句柄, 向服务方提出请求, 创建特定的服务实例, 指定相关的参数。

(4) 服务方创建满足要求的实例。假设应用方的要求可以被服务方满足, 并且符合服务放的使用策略, 则服务方就会根据要求创建相应的服务实例。

(5) 新创建的数据挖掘服务实例以“用户”的身份, 在不同的数据库中执行查询任务。

(6) 将查询结果存放在 (4) 所申请到的存储空间中。由于服务实例在创建时有生命周期的限制, 不可能无限存活下去, 这就需要用户不断向两个服务实例发送Keep alive保持存活的消息。

以上就是一个基于OGSA框架的应用例子, 例子虽然简单, 但是基本描述了应用在OGSA框架下的工作过程和执行机制如图3所示。

3 结束语

网格计算是一个正在迅速发展的研究领域, 网格体系结构可以说是网格建设中的核心技术。本文介绍了当前最新也是最重要的一种网格结构形式OGSA, 它借鉴了已有结构与技术的优点, 在统一的Web Service框架下, 提出了以服务为中心的结构形式。

不管是网格计算还是OGSA还远不成熟, 因此需要随着研究的深入不断发展。相信在大量基于OGSA的应用与开发展开后, OGSA会不断得到完善和提高, 这也会直接推动网格计算的发展。

摘要:通过对网格概念和特点的讨论, 详细阐述网格体系结构的定义及其组成, 利用网格理论分析数据挖掘技术。着重分析了开放网格体系结构 (OGSA) 以网格服务为中心的本质和它必须提供的基本功能。为OGSA的不断完善发展, 为网格计算的发展提供了更有力的支持。

关键词:网格,体系结构,网格服务

参考文献

[1]都志辉, 陈渝, 刘鹏.网格计算[M].北京:清华大学出版社, 2002.

[2]张晓莉, 郑颖立, 冯秀琪.基于网络的协作式学习系统的设计模式[J].中国电化教育, 2003 (3) .

[3]应宏.网格系统的组成与体系结构分析[J].西南师范大学学报:自然科学版, 2004 (4) .

[4]李骏, 唐宁九, 赵杉, 等.基于网格技术的全国社会保险网络系统联网的研究[J].计算机应用研究, 2006 (1) .

[5]罗光春, 卢显良.一种基于校园网的通用网格平台[J].计算机应用研究, 2006 (1) .

数据网格 第5篇

1 数据复制的概念

所谓数据复制,就是将数据库中的数据资源复制到一个或多个不同的物理站点上。数据复制技术可以有效地保证目标数据库与源数据库的中数据的一致性。

1.1 访问地有效性

我们在进行数据处理里,有时候受到网络的限制无法使用广域网WAN,为了可以继续访问本地数据,我们可以采用数据复制技术。在复制时,用户可以直接在本地讯问数据,非常方便,而不用通过数据库之间的网络连接来获取用户需要的数据资源。

1.2 缩短响应时间

数据复制可以缩短数据请求的响应时间,其原因如下:

1)由于数据复制的请求是在本地服务器上进行的,不需要访问网络,所以检索速度更快。

2)在本地服务器上处理数据减轻了中心数据库服务器的负担,同时也缓解了对处理器时间的争用。

1.3 事务的完整性

确保每个数据库始终保持事务完整性是任何复制系统都面临的挑战。Replication Server 和 SQL Remote 按以下方式复制事务日志的各个部分,因此在复制期间可保持事务的完整性。

MobiLink合并多个已提交的事务中所做的更改。这些更改以单个事务的方式应用到另一数据库中。

1.4 数据的准确性

我们在数据复制时,要使整个系统中的数据保持一致,提高数据的准确性。复制系统在整个体系中将工作时所做的改变以准确无误的方式复制到其他站点上,但是不同的站点在同一时间拥有不同的数据副本。

2 数据复制的分类

在数据复制技术中,复制配置和复制类型是两个重要方面,是区别不同复制技术的主要指标。配置,指的是有多少个源服务器被复制到多少个目标服务器,包括一对一复制、一对多复制、多对一复制、多对多复制。复制类型,指的是程序如何在两个系统之间进行数据同步,一个复制解决方案可能根据计划好的时间间隔来使数据保持同步,也可以用同步复制或异步复制的方式连续进行数据复制。数据复制类型主要有以下几种:

1)同步复制

在一个同步复制环境中,为了确保目标系统上最高程度的数据整体性,数据必须在主系统完成写入之前被写入到目标系统中。一方面,同步复制使得无论何时,目标系统上的数据都与源系统数据完全相同;另一方面,同步复制也可能导致源系统的性能延迟,尤其是在两个系统间的网络连接速度比较慢的情况下,延迟问题更为严重。

2)异步复制

在异步复制时,复制软件会对数据进行排队,然后在网络可用期间在系统之间批处理地传递改变的数据,源系统在执行前不会等候目标系统的确认。为了保持数据的完整性,有些解决方案将同步和异步复制操作组合在一起:当发生通讯问题时,同步复制会转为异步复制;当通讯问题解决后,又会转回同步方式。

3)计划复制

对有些用途而言,连续的复制不是理想的方案,采用计划复制更为适宜。在这种复制方式中,变化的数据将按预先设定的时间间隔被同步复制。

数据复制技术的应用范围非常广,不同的范围内,复制的目标数据、数据复制粒度及重要技术都有很大差别。如分布数据库、分布对象和移动计算等,这些应用领域和分布式储存关系非常密切。分布数据库系统的关键技术是非常有效的数据复制技术,它可以帮助我们有效地提高数据库系统的性能,如增强系统容错能力、改善数据访问性能和实现数据系统的负载平衡等。

由于移动环境下网络带宽低、速度慢。如果采用数据复制技术,可以根据当前用户的访问需求和分布情况,进行动态数据复制。这样做的好处是:可以使移动用户就近访问并复制所需的数据,大大提高访问的性能。

3 数据网格中的数据复制技术

为了改善数据网格系统性能,我们在网络系统中大范围地使用了数据复制技术。与传统分布式系统应用领域中的复制相比,数据网格中的复制技术在复制目标、复制粒度、复制关键技术等方面表现出独特性质。数据网格系统中,采用数据复制技术的目的是为了节省网络带宽、减少系统的访问时间等。在使用数据复制技术时通过数据在网格中的流动,实现数据网格系统的性能优化,也就是根据用户的访问需求和数据网格系统的数据特征自动将数据流复制到不同的网格节点或服务器上。

3.1 在网格中数据复制的特点

数据复制技术可以多个服务器上建立数据备份,如果我们在操作过程中发现某个服务器中的数据出错,就可以使用其他服务器进行操作,这样可以提高数据的准确性和数据的可用性。数据复制技术为了提高使用效率,降低传输负载,一般都会将远程服务器中的数据复制到本地服务器,让用户就近访问并复制所需的数据,大大提高访问的性能。但是,网格中的数据复制技术与分布对象等、分布数据库中的复制技术相比,还有一些问题要注意改进。

1)在数据系统中,用户可以把数据存储为一般文件、XML文件及各类数据库文件等;

2)而在数据网格系统中,需要充分考虑网络开销,这和数据库、分布对象系统选择副本时是不同的,只在减少网络开销,才能提高使用数据的速度;

3)在数据网格系统中,由于网格环境是呈动态性的,而且数据副本的数量可达几百甚至更多,存在巨大的数据量,为了对副本进行有效管理;我们必须采用合理的动态副本创建策略才能满足要求;

4)一方面,数据网格系统中的数据量巨大,且操作频率很高,整个文件的内容会被一个操作改写。这和传统的数据库中副本同步时几个小事务的操作有着很大的不同;而另一方面,数据网格中的数据广泛分布和复制在WAN上,更加灵活,一般的保持副本一致性算法并不适用于此。

3.2 在数据网格中对复制系统的相关需求

根据网络系统特点和对数据复制技术的分析,我们在使用数据网格下的数据复制系统需要注意以下几点需求:

1)动态性:在创建副本时,复制系统可以按需动态创建副本和删除副本;

2)适应性:复制系统需要考虑各种网络问题,如本地网速、用户网速以及访问失败等多种情况;

3)安全性:在创建副本时,应保证用户数据访问的安全,不让有图谋的他人进入;

4)有效性:复制系统创建副本时必须考虑资源和时间的开销,用自己能利用的资源设计出最佳方案;

5)灵活性:复制系统能够根据操作需要,灵活创建、删除和管理副本。

3.3 数据网格复制

Globus中数据管理的另一个基本服务是复制(replica management),Globus中数据的复制管理主要是针对远程的大型数据库文件进行访问。replica的原意是指复制品,即在文件复制时要与其本身保持一致性。为了满足这个要求,在复制管理体系结构中,必须要有一个支持WAN的分布式数据库。这样就可以在对文件复制时进行修改。同时,在原子操作时对文件进行加密。

在Globus项目中没有采用复杂的分布数据库。Globus中的复制管理服务实际上没有按照“replica”的一般语义进行实现,而是对“replica”语义放宽了限制,对于文件的多个复制操作,Globus的复制服务不会主动执行任何操作来检查确保文件的一致性。而当用户在复制一个注册的逻辑集合文件时,则需要由操作来保持数据文件之间的一致性。

在分布式计算的环境中,有时会遇到计算失败,或网络问题,这就给我们的复制管理服务提出了更高的要求,可以快速从错误中回复,并保持数据的一致性。在Globus的复制管理服务功能中只能够保证注册文件的一致性,但不能保证存储在复制管理服务中信息的.一致性。

Globus复制目录服务可以使科学应用程序快速地进行数据访问,它是Globus复制管理的核。其工作原理是智能地把部分相关数据放置在离科学应用程序最近的位置。复制管理服务的功能主要包括:注册新的拷贝到复制目录中以、创建全部或部分文件集合的新拷贝、允许用户查询复制目录来找到部分或全部文件集合的拷贝。

4 基于网格环境中的数据复制具体实现

在网格环境中,我们在数据复制前要对具体问题进行具体分析,做好规划与设计。这就需要我们在设计时必须确定出需要复制的数据对象、数据库站点及类型、冲突解决方案、同步方式等内容。从而设计出一套详实并能满足实际业务需求的合理方案。在进行详细的规划与设计后,我们就可以按计划实现数据复制,具体操作如下:

1)创建数据复制站点;

2)创建组对象;

3)配置合理、详实的解决冲突方案。

下面,我们举例说明相关操作。我们会设置主控站点和共享数据表各两个,采用多主控站点复制方式。

主控站点分别为处理站点(handle.world)和解释站点(explain.world);数据表分别为测区(region)和测线(line)。

1)用系统身份进行登录并访问主站点数据库。

2)为每个复制站点创建新用户,并为其授权复制管理员身份,其主要任务是负责创建并管理复制的站点,其代码如下图所示:

3)指定本站点的propagator,其主要职责是将本地的最新数据传播到其他站点上,完成任务。

4)指定本站点的receiver,其主要职责是接收其他站点上的propagator传输过来的数据,其代码如下图所示:

5)为了提高运行速度,我们需要定时清除已经加载的事务,在本例中设定每小时清除一次。这样做的目的是避免事务队列过长。

6)调度数据库链接

我们用同样的方法法创建处理站点(handle.world)和解释站点(explain.world)。创建的过程如下:首先,需要先在各个主控站点之间建立数据库链接,我们需要先建立一个公用的数据库链接,让它为其他私有数据库链接提供服务。同时,我们需要在解释站点(explain.world)上建立与处理站点(handle.world)的数据库链接。其次,我们要为每个数据库链接定义系统调度的时间。

5 解决数据复制中的冲突问题

在进行数据库系统和应用程序设计过程中,设计者会考虑到冲突的问题,在设计时进行优化操作,但是站点之间的冲突问题并不能完全避免。一旦发生冲突,就需要采用冲突解决机制来处理,从而保证各站点数据的一致性。我们可以通过以下几种方法来解决上述问题:

5.1 查看出错命令的具体内容

当出现复制冲突问题时,我们要及时了解哪些数据容易出现冲突。在系统中,静态数据很少出现冲突,发生冲突的主要是一些变化较大的动态数据。了解这一情况之后,我们要根据情况来解决冲突问题。其方法有如下几种,方法1:建立各站点间的优先次序,在数据不一致时,系统以基准站点上的数据为准;方法2:当数据不一致时,系统以某个站点上最新更新的修改为准。

虽然数据库中提供了很多解决方案来避免冲突,如针对更新冲突、删除冲突、唯一性冲突等多种冲突的解决方案。这些方案都有相应的适用范围,用户可以根据具体的业务情况来选择合适的方案来解决冲突问题。除了这些系统中的方案以外,我们还可以通过自定义方案的方法来处理冲突问题。

5.2 比较数据之间的差异

如果遇到一些查询复制出错的语句,使用人工处理同步失败时相对容易。但是当复制错误的命令很多时,就会比较麻烦,使用以上方法难以处理。这种情况下,我们一般会选择忽略失败的复制命令,然后通过比较订阅表的数据之间的差异来解决问题 。

基于内存数据网格文件存储分析 第6篇

关键词:内存数据网格,文件存储,性能分析

随着云计算技术的普及,产生的数据量越来越大,数据共享越来越普遍。为了处理海量数据,解决传统数据库面临的大规模数据访问瓶颈问题,分布式缓存技术得以引入。分布式缓存将数据分布到多个缓存服务节点,在内存中管理数据,对外提供统一的访问接口,基于冗余备份机制实现高可用支持,又被称为内存数据网格(IMDG)。IMDG是基于内存的新型分布式数据键值对存储系统,与分布式缓存相比,可以简化应用层数据访问逻辑的开发,减少维护缓存与数据库的管理逻辑,屏蔽应用与数据库的交互细节,并提供持久化机制将内存中的数据自动存储于数据库中[2]。

目前IMDG主要是对数据键值对存储研究比较多,本文通过分析现存的IMDG原型系统,利用Infinispan内存数据网格原型实现的分布式文件存储。通过在单机环境下和集群环境下的性能测试实验,测试该内存数据网格的文件读写性能,以及验证影响内存数据网格的读写性能的因素[2,6]。

1 内存数据网格的概述

1.1分布式缓存

在计算机中,分布式缓存是传统概念上单一缓冲的扩充。一个分布式缓存跨越多个服务器,因此其具有可扩展性和事物处理性。通常主要是用于存储应用程序数据驻留在数据库和web会话数据。因为内存变得非常便宜和网卡已经变得非常快分布式缓存的[1]现在已经使用的越来越广泛。对于分布式缓存主要的特性有高性能、动态可扩展、高可用性、易用性、分布式代码执行[3,4]。现今,很多的系统都使用了数据缓存技术,典型的数据检索系统,将数据检索技术和数据缓存技术结合起来,极大地提高了检索效率。

1.2 内存数据网格文件存储

Infinispan是JBoss Cache缓存框架的后续项目,它是一个开源的数据网格平台,用于访问分布式状态的群集节点。它可以提供无固定类型的存储key-value值,文件的存储,基于网格的数据存储。在存储数据方面我们可以设置数据在集群中保存的副本数量;同时提供负载均衡,以及失效节点的数据自动迁移到其他节点的功能[5]。Grid File System(网格文件系统)是一个全新实验性的API,这些API使Infinispan后端的网格数据像文件系统一样展示出来。对于实现的系统,集群中某个节点失效时,该节点存储的数据会自动迁移到其他的节点上,实现数据的可靠性存储。同时如果某个节点上存储的数据过多,也能够进行负载平衡。

1.3 工具的实现

内存数据网格提供系统两种类型的时间存储。一种是文件流形式的数据存储,主要存储的内容是文件。对于这种形式的数据,内存数据网格(Infinispan)首先要先去内存文件系统中取数据,在集群中选择数据所要存放的节点(数据在集群中存两份),然后通过Jgroup进行数据的传输。另一种是Key-Value类型的数据。对于这种数据的存储内存数据网格(Infinispan)直接接收套接字客户端发送过来的Key-Value的键值对,然后在集群中选择两个节点进行存储(数据存放两份),通过Jgroup进行数据的传送。

2 实验方案介绍

测试的系统采用的是Ubuntu14.1,内核版本是3.11.10.11;java的环境是JDK8。虚拟机内存大小是2GB。采用的方法是测试得到的数据取平均值,在试验中每组数据测了50次,然后求其平均值。单机环境下的测试,主要测试因素是文件大小和文件存取时分块大小。文件存取时分块大小,主要指的是,文件在存储到内存数据网格时,内存数据网格将文件分成块,进行分块传输。文件在内存数据网格中也是以块的大小存放。这种分块对上层用户是透明的。下面分针对这两种情况进行了测试。在集群中的测试过程中因变量为读文件时间和写文件时间,自变量为文件大小、分块的大小、集群环境。实验的交换机的带宽是1000M/S。主要目的是为了找出在集群环境下,文件大小,文件存入是分块的大小,集群环境与文件的存取时间的关系。

2.1实验集群场景选择

集群环境的测试中,主要目的是为了测试,集群的分布与文件的读写时间的关系。主要考虑的因素有两点:一、同一台物理机上的虚拟机之间会不会由于虚拟化的不稳定,从而影响读写性能;二、文件存储的过程中存储在本节点与不存储在本节点读写性能是否有影响。根据这两个猜想我们设计了下面的集群中的几个场景。在集群环境下我们采用下面图中的几种结构。场景A写AB存,一台物理机上运行两台虚拟机,A虚拟机写入数据,A和B虚拟机存入数据(数据在集群中存储两份)。场景A写BC存,一台物理机上运行三台虚拟机,A虚拟机写入数据,BC存入数据(数据在集群中存储两份);场景A写AD存,物理机(HA-A)上运行虚拟机A,物理机(HA-B)上运行虚拟机D,物理机(HA-C)运行虚拟机G,虚拟机A写入数据,存放在A和D两个节点上;场景A写BD存,物理机(HA-A)上运行两台虚拟机A和B,物理机(HA-B)上运行虚拟机D,虚拟机A写入文件,虚拟机B和虚拟机D存储文件。在这些场景中我们固定的文件大小为100M,文件块大小为50M。

2.2数据的监控

对于影响存取时间的猜想:数据段之间的时间隔,系统在接收和发送数据时都有一个发送缓冲区和接收缓冲区,每接收完一个缓冲区,集群需要确定当前所有的集群是否是存活,发送数据。如果数据丢失,那么会重新发送一份发送之前缓冲区中的数据。对应场景虚拟机环境和物理机环境的对比,存文件的时间效率不高的原因可能是虚拟机的不稳定导致。

3 实验结果分析

一个PUT(存)操作,只会产生网格中节点子集数(num Own-ers)个远程调用。一个GET操作只针对网格中某一个节点产生一次远程调用。另为,在分布式模式下,不管配置的是同步调用还是异步调用,如果缓存条目不存在于本地时,都是采用同步调用请求用来从其他节点获取数据。对于数据的读,时间上存在很大的变化,主要是它总是优先读取本地节点的数据,才去读取对应节点的数据。

4 结束语

Infinispan分布式模式通过连续性哈希算法从网格中选择出节点来保存缓存条目,节点总数就是数据网格中节点子集,哈希算法通过配置文件知道节点子集总数,同时它维护缓存条目一直存在于这个数的节点上。节点子集数的大小与Infinis-pan数据网格的性能和容错能力相关,节点子集数太大,即缓存条目保存在很多节点上会影响性能,但节点子集数太小又影响容错能力。

基于数据网格技术的研究与分析 第7篇

以网络技术和多媒体技术为代表的现代信息技术的发展给全球带来了前所未有的生机与活力。但另一方面,分布异构的资源库的有效集成也面临着巨大的挑战,如资源数据的生产不规范、资源数据的飞速膨胀、资源的集中存储与集中管理模式。数据网格技术正是在这种背景下产生的一种有效解决途径。

1 主要数据网格项目

1.1 Globus Project and Globus Toolkit

Globus项目是迄今为止最有影响力的一个通用网格项目,这个项目所开发的Globus工具包(Globus Toolkit)被用作规划和组建大型的网格试验和应用平台,开发基于大型网格系统运行的网格应用程序。Globus项目是由Globus联盟研究和开发主持的。Globus项目的目的是开发构建网格所需要的技术、标准和系统软件,以期在科学、工程、商业及其他公共事务提供基础性分布式合作的环境支持。Globus Toolkit是一套用来构建网格环境和支持网格应用的软件库,它包括了分布式安全、资源管理、数据管理、监控与发现等多个组件,是一套开放源代码的、可以在多个平台下运行的工具包。GlobusToolkit被打包成一组组件的集合,这些组件既可独立使用,也可联合使用。

Globus的数据管理服务主要由四部分组成:

(1)高速文件传输协议GridFTP是一个高性能、安全、可靠的数据传输协议,它对标准的文件传输协议FTP做了扩展,使其更适合于网格环境下海量数据的传输。GridFTP已经成为很多网格项目中标准的数据传输协议,也是全球网格论坛GGF推荐的网格环境下的海量数据传输协议。GridFTP主要支持:多数据通道的并行文件传输;部分文件传输;第三方传输;多种协议动态适配;采用可扩展的输入输出库XIO;IPv6。

(2)可靠文件传输服务RFT RFT(Reliable File Transfer)是建立在GridFTP服务基础之上的WSRF兼容的服务,为用户提供可靠的文件传输,支持断点续传和重传。Globus的GridFTP没有提供Web Service的接口,并且需要发起远程数据传输的客户端和服务器端之间保持一个控制通道(即需要一个TCP/IP连接),由于传输的状态是保存在内存中的,一旦客户端失效,GridFTP服务端无法知道从哪里重新启动传输。RFT解决了此问题,它相当于用户的代理,它代表用户发起第三方传输。RFT可以长久地保持和服务器的连接,它接受客户端发出的包含数据传输任务的SOAP请求,任务可能包含一个传输,也可能是上千个传输。RFT将请求和瞬时状态写入数据库,一旦一个服务失效,它就可以从写入数据库的最后一个检查点处恢复传输,从而保证了数据传输的可靠性。

(3)副本定位服务RLS副本定位服务RLS(Replica Location Service)维护数据项从逻辑名到物理名的映射信息以及提供对它们的访问。对于分布式应用,数据副本可以降低访问延迟,增加数据访问局部性,增强健壮性、可扩展性和性能。一个RLS通常不是孤立的,而是作为数据网格体系结构的一个组成部分,它还包括可靠文件传输、元数据管理、可靠复制以及工作流管理等服务。

(4)数据复制服务DRS数据复制服务DRS(Data Replication Service)是建立在数据管理组件RFT和RLS的顶层的高层数据管理服务。其功能是确保指定的文件集存在于存储位置。DRS先是通过RLS在网格环境中定位所需要的文件,然后创建一个传输请求并由RFT来执行,最后再由RLS注册一个新的复本。DRS是以Web服务的形式实现的,遵循了WSRF规范。当接收到一个DRS请求时,将创建一个Web服务资源用来维持每一个被复制文件的状态。

1.2 Sybase Avaki EnterpriseInformationIntegration

SybaseAvaki EnterpriseInformation Integration的前身是由原Avaki公司开发的Avaki DataGrid,它可以把分布异构的数据源集成起来,通过单一的数据服务层提供标准化的访问。Avaki使用联邦数据服务,可以从数据的源位置直接访问数据,而不是采用全副本策略或者建立昂贵的数据中心。利用AVAKI丰富的特性和方法,可以创建模块化的和可重用的数据集成方案;用户利用AVAKI创建一个单一的数据服务层,该服务层通过一个数据目录实现对多个数据源的访问。对于应用程序而言,该目录是一个虚拟的数据源,可以通过标准的协议,如Web Service、ODBC、JDBC或其它标准的文件I/O函数对它进行访问,不需要学习和使用新的API。

使用一个AVAKI数据服务层可以高效的跨企业的提供数据共享;可以简化对分布数据的访问;根据应用的需要集成数据;为数据集成创建一个可扩展的体系结构。总的说来,AVAKI将数据的管理分为三个方面:

(1)数据提供通过联邦的方法(Federated Approach)使共享数据保持局部的控制;通过向一个目录注册多个数据源的数据创建一个单一的虚拟的数据源;使用统一的访问控制机制对关系数据库、文件、XML文档以及应用程序数据进行授权;对每一个目录项定义一个缓存方法和刷新进度表,通知数据消费者数据的更新;使每一个目录项自动成为一个Web Service,使得数据可访问。

(2)数据访问如果数据是本地的,应用程序和用户访问数据是完全透明的;单一的目录使得应用程序访问数据不用关心数据源的细节,应用程序访问数据使用一套标准的方法,如Web Service(SOAP)、ODBC或标准的文件I/O;采用分布的Caches使得数据访问即使在广域网上也有很高的性能。

(3)数据集成AVAKI使用强大的工具从多个分布的数据源处集成数据,并从多个数据源处创建单一的数据视图;在应用程序上下文之外转换、集成和聚集数据,促进集成工作的可重用性;根据需要使用第三方的集成工具和定制的集成代码;自动为关系数据产生XML Schemas(元数据),然后使用这些Schemas来指定集成和产生集成逻辑;建立数据流在企业中传播更新,不需要额外的编码。

1.3 Storage Resource Broker

存储资源代理StorageResourceBroker(简称SRB)是美国San Diego超级计算中心(简称SDSC)研制的客户/服务器结构的中间件系统,它可以统一访问网络上的异构资源集和副本资源集。利用元数据目录服务Metadata Catalog(简称MCAT),SRB提供了基于属性和逻辑名的数据访问,而不需要知道数据的物理名称和物理位置。

SRB由SRB服务器、元数据目录以及各种资源驱动程序组成。SRB Server由两部分组成:SRB Master和SRB Agent。MCAT是一个由关系型数据库实现的元数据注册系统,SRB利用MCAT提供的元数据目录服务来为用户提供一个“数据集”导向的数据视图。

在早期版本的SRB系统中,MCAT采用集中式设计,这对于面向广域的数据网格应用会带来诸如性能瓶颈、可扩展性、单点失效等问题。SRB的最新版本Zone SRB采用了分布式设计的MCAT,支持联邦MCAT,提供两个或多个独立的SRB互动的能力,以及在这些SRB系统中无缝地访问数据和元数据,克服了早期版本的不足。Zone SRB引入了域的概念,每个域由一个MCAT控制,并且可以包含一个或多个SRB Server。SRB的数据管理功能主要包括以下四个方面:

(1)数据集SRB/MCAT中的所有数据对象都存储在数据集中,数据集是一个层次的结构,可以有子数据集。一个数据集或子数据集中的数据对象名字必须是唯一的。

(2)存储系统访问SRB通过代理机制来访问远程存储系统,这种代理方式允许SRB和SRB间的认证,从而使得服务器可以访问另一个SRB服务器控制的文件。

(3)文件传输对于大文件传输,正常情况下SRB将会比FTP等快,因为SRB使用了并行I/O功能。

(4)复制数据对象在SRB中,用户可以创建数据对象的拷贝,并将其存储在不同的地方,但所有这些拷贝在SRB中都是通过相同的名字来标识的。

另外,SRB支持四种类型的接口:流接口、对象级接口、发现级接口、用来修改SRB中数据对象的信息的接口。

2 数据网格特征及应用场景

数据网格技术主要针对大规模分布式数据密集型的研究和应用,如高能物理试验、中长期天气预报、基因分析等。对于数据密集型问题,数据采集地点、数据处理地点、数据分析与结果存放地点、可视化设备地点往往不在同一个地方,数据密集型问题的求解往往同时会产生很大的通信和计算需求,所以数据网格具有如下的应用特征:

(1)海量的存储资源数据网格中所处理的数据往往是从高能粒子试验、核试验或者卫星、望远镜等科学仪器中获取数据的,这些仪器的获取能力不断提高,每年需要存储的数据量可达GB级乃至TB级,累积数据量甚至高达PB级。这就要求数据网格首先得具备海量存储的能力。

(2)分布的数据和离散的资源海量的存储资源注定了数据资源不可能集中存储,同时安全性也不允许数据的集中存储。数据网格技术并不是将所有的数据集中存储在同一地理位置、同一文件系统下,而是将分布在各地的数据资源有效的组织起来实现共享,提高资源的利用效率,方便分布的用户使用。用户间可通过数据网格这个平台进行合作研究、开发,充分发挥团体合作的优势,用户的研究成果或处理结果也可共享。

(3)局部自治性与管理的多重性网格上的资源首先是属于某一个组织或个人的,因此网格资源的拥有者对该资源具有最高级别的管理权限,网格应该允许资源拥有者对他的资源有自主的管理能力,即网格的自治性。但网格资源也必须接受网格的统一管理,否则不同的资源就无法建立相互之间的联系,无法实现共享和互服务,无法作为一个整体为更多的用户提供服务。

(4)资源访问的负载不均衡数据网格不同的数据资源的访问频率往往不同,同一时间内对数据的访问很可能仅仅集中在少数的存储资源上,这带来了两个方面的影响。一方面可以对这种具有局部性的访问进行优化,从而使高效的数据访问变成了可能;另一方面,若处理不当,就会带来严重的负载平衡问题,导致数据访问效率下降。

(5)数据网格的安全性数据网格对安全的要求比Internet的安全要求更复杂。数据网格中的用户数量、资源数量都很大且动态可变,资源支持不同的认证和授权机制且可以属于多个组织。正是由于这些数据网格独有的特征,使得它的安全要求性更高,具体包括:支持在网格计算环境中主体之间的安全通信,防止主体假冒和数据泄密;支持跨虚拟组织的安全;支持网格计算环境中用户的单点登录,包括跨多个资源和地点的信任委托和信任转移等。

(6)数据网格的服务质量(QOS)数据网格的目标是成为一个底层基础设施,为上层应用提供稳定的服务,这就要求提供质量保障。缺乏数据资源的安全性就会缺乏数据资源的提供者。缺乏QOS的保障就会缺乏数据网格的使用者。所以,数据网格必须提供基本的服务质量保障和分级的服务质量保障技术。

3 结语

鉴于以上分析,数据网格将成为数据资源统一访问与管理的基础设施,它可以为地理上分布的研究团体对海量数据进行复杂分析、联合处理提供基本环境,也使得单个研究人员可以充分调动网格上的各种资源,方便地访问和分析庞大的数据。数据网格非常适合处理属于不同组织的、分布异构、海量的资源存储系统集成环境。

参考文献

[1]王意洁,肖侬.数据网格及其关键技术研究[J].计算机研究与发展,2002,39(8):943-947.

[2]许志伟.网格计算技术[M]北京:电子工业出版,2004.

基于网格服务的分布式数据挖掘 第8篇

1 网格数据挖掘

网格数据挖掘的特点:1)超级计算能力。从理论上讲,网格可以利用所有连接在Internet上的所有闲置计算机资源形成一个超级的计算能力,并提供给科学计算领域和社会经济生活领域。2)具有分布性和动态性,数据分布范围广。在网格计算环境中,广域分布的各种资源都是动态创建和删除的。因此,网格的数据挖掘系统具备分布性和动态性[2]。正是网格的这些特点及其分布式环境,使得网格的数据挖掘系统既不同于传统的集中式数据挖掘系统,也不同于分布式数据挖掘系统,而是和网格一样具有分布性、动态性和自适应性。网格的数据挖掘系统采用分布式的组件架构和自适应的分布技术,由一系列的组件集成,组件之间可以实现互相通信和数据交换。这种基于分布式组件技术的体系结构允许更大的弹性,包括集成不同的协议、应用程序接口、应用程序、操作系统和硬件,能够提供多级的抽象能力、高可靠性、可扩充性和安全性。

2 网格服务

网格数据挖掘是通过网格服务体系结构来实现的,开放式网格服务体系结构(OGSA,Open Grid Service Architecture)是在网格计算和Web Services技术融合的基础上提出的一套规范和标准。在OGSA体系结构中一切都被抽象为服务,包括计算机、软件、数据以及设备等。考虑到网格环境的特点,存在着大量的临时性服务,OGSA在原来的Web服务基础上提出了Grid Service的概念,用于解决服务的发现、动态服务的创建、服务的生命周期管理等与临时服务有关的问题。

Web服务是Grid服务的基础,它与CORBA,EJB,RMI等技术类似,是一种分布式计算技术,可以使用Web服务来解决异构的分布式计算问题。Web服务与其他分布式技术相比,其优点是:1)Web服务是平台/语言独立的,使用标准的XML作为协议语言。2)Web服务使用HTTP协议进行通信,可以方便地穿过防火墙。Web服务也有其自身的缺点:Web服务使用XML传输文本数据获得了高移植性,可是与传输二进制数据的技术相比失去了高效率性,所以不能将Web服务技术应用于实时系统中。3)Web服务目前只支持几种有限的服务调用方式,而Grid服务将提供更多的服务,如:Persistency,Notification,Lifecycle management,Transaction等。Web服务是无状态的,不能保留中间结果,多个客户端共享一个Web服务的实例。Grid服务扩展了Web服务,添加了Factory(工厂的概念,客户端与Factory进行通信,由Factory来管理和维护Grid服务实例。一个客户端既可以拥有一个Grid服务实例,也可以多个客户端共享一个Grid服务实例。除此之外,Grid服务在服务实例的生命周期管理、服务数据、通知等方面进行了改进。

3 关联规则挖掘算法ODAM及改进

3.1 ODAM算法

ODAM(Optimized Distributed Association Rule Mining)是一个针对地理分布的数据集的分布式关联规则挖掘算法,减少了事务、数据集、信息交换的的平均长度。算法如下:

3.2 改进

ODAM算法是对Apriori算法的改进。它在挖掘中逐渐减少数据集的大小,同时对站点之间的信息交换进行了大幅度的优化[4]。其他方面基本上是一个分布式的Apriori算法。本文对ODAM进行下列优化。

3.2.1 在生成侯选集之前判断挖掘是否可以结束

在准备生成n侯选集之前,如果n-1项全局频繁集的个数小于n,则挖掘结束,而不用先生成n项侯选集,然后再查找判断其n个n-1项子集是否都是频繁集来判断该n项集可以作为侯选集。最后判断n项侯选集的集合是否为空来决定挖掘是否结束。可以进行这种改进的原因是n项集的n-1项子集有n个。这种方法适用于数据集较小,事务长度较大的情况。

3.2.2 根据事务的最大长度,判断是否进入下一轮挖掘

在扫描单项集后,记录下最大的事务长度TLenMax。在挖掘n项集前,判断n是否大于TLenMax,如果是,则结束挖掘;否则,继续。原因是事物数据库中的没有长度为n的事务,所有n项侯选集合的支持度都为零。这种方法适合于数据集较大,而事务最大长度较小的数据源。如下面的雷达源识别数据集就是一个事务长度最小为3,最大为6,而有5000条样本的数据集。

4 展望

网格数据挖掘可以通过多台处理器协作工作来提高工作效率。但这也产生了新问题:如何分解数据挖掘任务以及子任务间的协调。以及某个资源(计算机)意外失败而引起的任务重新划分问题。

摘要:阐述网格计算概念及其与传统分布式计算的区别。介绍了一种分布式关联规则挖掘算法,并对其进行了几点改进,最后用网格服务实现了该算法。实验测试结果表明,使用网格服务可以合并若干台计算机的计算能力来减少算法的运行时间。

关键词:分布式,数据挖掘,网格,ODAM,关联规则

参考文献

[1]胡敏,顾君忠.Globus网格体系结构及其服务的实现[J].计算机工程,2003(9).

[2]侯文国,傅秀芬.网格的数据挖掘[J].计算机应用研究,2004(2).

[3]The Globus Project[EB/OL].http://www.globus.org.

[4]Ashrafi M Z,Taniar D.ODAMAn Optimized Distributed Association Rule Mining[J].Algorithm IEEE DISTRIBUTED SYSTEMS,2004(5).

数据网格 第9篇

随着社会发展和经济持续增长,遥感技术在测绘、气象、国土资源勘察、灾害监测、环保、国防等诸多学科和领域得到了广泛的应用,大量的分布异构的遥感观测数据正不断产生。遥感图像数据具有以下特点[1]:1)遥感图像的数据量非常大。2)数据的复杂性和异构性。3)数据的分布性。4)数据的自治性。遥感图像数据的这些特点为数据资源的访问带来了难题让用户不能有效的查询和访问自己感兴趣的图像数据。

网格[2]作为解决分布式复杂异构问题的新一代技术,为数据管理和存储提出了一种全新的架构。另外,开放网格服务架构OGSA(Open Grid Services Architecture)[3]综合了传统的计算网格技术和Web Services技术[4],为基于网格的应用定义了一个公共、标准的分布式体系框架。以服务为中心的OGSA架构,将各种计算资源、数据资源、存储资源和应用等都抽象为网格服务,实现了广域网环境下的程序和资源的互连,其松耦合的特点能够很好地解决数据资源的分布性、异构性和自治性问题。

2 遥感数据集成与共享平台的系统设计

本文设计和实现了遥感图像数据访问网格服务,基于网格服务实现了分布异构遥感图像数据的集成、共享和一致性访问的系统,该系统并发访问各个网络节点的数据并对数据访问结果进行处理和综合显示。基于网格服务的标准性和抽象性,能够为遥感数据提供一种灵活、动态和一致的共享机制。图1所示的是该系统的概念模型,该平台架构共分为五层,数据层、服务层、中间件层、应用层和表示层。下面将详细介绍该架构每个层次的组成和功能。

1)数据层:该层是提供数据共享服务的数据资源层,具体包括:遥感图像元数据、快视图、遥感图像和头文件等。另外,还包括存储、管理和维护这些数据的工具和设备。

2)服务层:利用网格服务封装遥感图像元数据的提取、检索等算法,向用户提供统一的访问和操作接口,用户可以通过网格服务提供的统一的接口,访问和操作数据层中海量的分布异构数据,向用户屏蔽了服务的实现和物理数据资源,解决了数据异构问题。

3)中间件层:该层包括了智能代理服务和网格服务管理服务两个网格服务,通过它们可以根据服务层中网格服务的注册信息(该注册信息包括了服务的名称、描述、WSDL的URL和服务状态等信息,存储在数据层的平台中心数据库中)整合、访问、操作、管理和维护服务层中众多无序的、由网格服务封装的数据节点,让这些分布的数据节点整合成一个数据整体,向应用层提供数据服务。

4)应用层:该层为运行在一个IIS Web Server上Web程序,包括了多个业务流程,可以接收、分析和处理用户的各种请求,执行业务流程,与中间件层进行数据交互,并将返回的数据和操作结果提供给表示层。

5)表示层:该层的主要作用是将应用层的执行结果呈现给用户,是用户与系统交互的接口,包括各种输入输出设备、显示器、终端等。

3 结论

本文提出和设计了基于网格服务的遥感数据集成与共享平台,实现了对分布、异构的遥感数据的一致访问。遥感数据访问服务是基于网格服务实现的,基于网格服务的标准性和抽象性特点,能够提供灵活、动态、一致数据共享机制。

摘要:由于遥感图像数据具有海量性、分布性、异构性和自治性的特点,现有的系统很难满足人类有效共享和查询遥感图像数据的巨大需求。该文讨论了在Web环境中实现遥感图像资源集成与共享的有关问题,提出并实现了一个基于网格服务技术的遥感图像资源集成与共享平台框架,满足了用户对遥感图像数据资源充分、动态和一致性共享的需求。

关键词:网格服务,遥感图像数据,集成与共享

参考文献

[1]戴芹,刘建波,刘士彬.海量卫星遥感数据共享的关键技术[J].计算机工程,2008(6):283-285.

[2]Foster I.What is the Grid-A Three-point Checklist[C]//Proc.of the8th IEEE International Symposium on High Performance Distributed Computing,1999.

[3]IAN FOSTER,CARL KESSELMAN,JEFFREY M NICK.The Physiology of the Grid:An Open Grid Services Architecture for Distributed Systems Integration[EB/OL].http://www.globus.org/research/papers/ogsa.pdf.

基于网格的数据传输与复制技术研究 第10篇

所谓数据复制,就是将数据库中的数据资源复制到一个或多个不同的物理站点上。数据复制技术可以有效地保证目标数据库与源数据库的中数据的一致性。

1.1 访问地有效性

我们在进行数据处理里,有时候受到网络的限制无法使用广域网WAN,为了可以继续访问本地数据,我们可以采用数据复制技术。在复制时,用户可以直接在本地讯问数据,非常方便,而不用通过数据库之间的网络连接来获取用户需要的数据资源。

1.2 缩短响应时间

数据复制可以缩短数据请求的响应时间,其原因如下:

1)由于数据复制的请求是在本地服务器上进行的,不需要访问网络,所以检索速度更快。

2)在本地服务器上处理数据减轻了中心数据库服务器的负担,同时也缓解了对处理器时间的争用。

1.3 事务的完整性

确保每个数据库始终保持事务完整性是任何复制系统都面临的挑战。Replication Server和SQL Remote按以下方式复制事务日志的各个部分,因此在复制期间可保持事务的完整性。

Mobi Link合并多个已提交的事务中所做的更改。这些更改以单个事务的方式应用到另一数据库中。

1.4 数据的准确性

我们在数据复制时,要使整个系统中的数据保持一致,提高数据的准确性。复制系统在整个体系中将工作时所做的改变以准确无误的方式复制到其他站点上,但是不同的站点在同一时间拥有不同的数据副本。

2 数据复制的分类

在数据复制技术中,复制配置和复制类型是两个重要方面,是区别不同复制技术的主要指标。配置,指的是有多少个源服务器被复制到多少个目标服务器,包括一对一复制、一对多复制、多对一复制、多对多复制。复制类型,指的是程序如何在两个系统之间进行数据同步,一个复制解决方案可能根据计划好的时间间隔来使数据保持同步,也可以用同步复制或异步复制的方式连续进行数据复制。数据复制类型主要有以下几种:

1)同步复制

在一个同步复制环境中,为了确保目标系统上最高程度的数据整体性,数据必须在主系统完成写入之前被写入到目标系统中。一方面,同步复制使得无论何时,目标系统上的数据都与源系统数据完全相同;另一方面,同步复制也可能导致源系统的性能延迟,尤其是在两个系统间的网络连接速度比较慢的情况下,延迟问题更为严重。

2)异步复制

在异步复制时,复制软件会对数据进行排队,然后在网络可用期间在系统之间批处理地传递改变的数据,源系统在执行前不会等候目标系统的确认。为了保持数据的完整性,有些解决方案将同步和异步复制操作组合在一起:当发生通讯问题时,同步复制会转为异步复制;当通讯问题解决后,又会转回同步方式。

3)计划复制

对有些用途而言,连续的复制不是理想的方案,采用计划复制更为适宜。在这种复制方式中,变化的数据将按预先设定的时间间隔被同步复制。

数据复制技术的应用范围非常广,不同的范围内,复制的目标数据、数据复制粒度及重要技术都有很大差别。如分布数据库、分布对象和移动计算等,这些应用领域和分布式储存关系非常密切。分布数据库系统的关键技术是非常有效的数据复制技术,它可以帮助我们有效地提高数据库系统的性能,如增强系统容错能力、改善数据访问性能和实现数据系统的负载平衡等。

由于移动环境下网络带宽低、速度慢。如果采用数据复制技术,可以根据当前用户的访问需求和分布情况,进行动态数据复制。这样做的好处是:可以使移动用户就近访问并复制所需的数据,大大提高访问的性能。

3 数据网格中的数据复制技术

为了改善数据网格系统性能,我们在网络系统中大范围地使用了数据复制技术。与传统分布式系统应用领域中的复制相比,数据网格中的复制技术在复制目标、复制粒度、复制关键技术等方面表现出独特性质。数据网格系统中,采用数据复制技术的目的是为了节省网络带宽、减少系统的访问时间等。在使用数据复制技术时通过数据在网格中的流动,实现数据网格系统的性能优化,也就是根据用户的访问需求和数据网格系统的数据特征自动将数据流复制到不同的网格节点或服务器上。

3.1 在网格中数据复制的特点

数据复制技术可以多个服务器上建立数据备份,如果我们在操作过程中发现某个服务器中的数据出错,就可以使用其他服务器进行操作,这样可以提高数据的准确性和数据的可用性。数据复制技术为了提高使用效率,降低传输负载,一般都会将远程服务器中的数据复制到本地服务器,让用户就近访问并复制所需的数据,大大提高访问的性能。但是,网格中的数据复制技术与分布对象等、分布数据库中的复制技术相比,还有一些问题要注意改进。

1)在数据系统中,用户可以把数据存储为一般文件、XML文件及各类数据库文件等;

2)而在数据网格系统中,需要充分考虑网络开销,这和数据库、分布对象系统选择副本时是不同的,只在减少网络开销,才能提高使用数据的速度;

3)在数据网格系统中,由于网格环境是呈动态性的,而且数据副本的数量可达几百甚至更多,存在巨大的数据量,为了对副本进行有效管理;我们必须采用合理的动态副本创建策略才能满足要求;

4)一方面,数据网格系统中的数据量巨大,且操作频率很高,整个文件的内容会被一个操作改写。这和传统的数据库中副本同步时几个小事务的操作有着很大的不同;而另一方面,数据网格中的数据广泛分布和复制在WAN上,更加灵活,一般的保持副本一致性算法并不适用于此。

3.2在数据网格中对复制系统的相关需求

根据网络系统特点和对数据复制技术的分析,我们在使用数据网格下的数据复制系统需要注意以下几点需求:

1)动态性:在创建副本时,复制系统可以按需动态创建副本和删除副本;

2)适应性:复制系统需要考虑各种网络问题,如本地网速、用户网速以及访问失败等多种情况;

3)安全性:在创建副本时,应保证用户数据访问的安全,不让有图谋的他人进入;

4)有效性:复制系统创建副本时必须考虑资源和时间的开销,用自己能利用的资源设计出最佳方案;

5)灵活性:复制系统能够根据操作需要,灵活创建、删除和管理副本。

3.3 数据网格复制

Globus中数据管理的另一个基本服务是复制(replica man-agement),Globus中数据的复制管理主要是针对远程的大型数据库文件进行访问。replica的原意是指复制品,即在文件复制时要与其本身保持一致性。为了满足这个要求,在复制管理体系结构中,必须要有一个支持WAN的分布式数据库。这样就可以在对文件复制时进行修改。同时,在原子操作时对文件进行加密。

在Globus项目中没有采用复杂的分布数据库。Globus中的复制管理服务实际上没有按照“replica”的一般语义进行实现,而是对“replica”语义放宽了限制,对于文件的多个复制操作,Globus的复制服务不会主动执行任何操作来检查确保文件的一致性。而当用户在复制一个注册的逻辑集合文件时,则需要由操作来保持数据文件之间的一致性。

在分布式计算的环境中,有时会遇到计算失败,或网络问题,这就给我们的复制管理服务提出了更高的要求,可以快速从错误中回复,并保持数据的一致性。在Globus的复制管理服务功能中只能够保证注册文件的一致性,但不能保证存储在复制管理服务中信息的一致性。

Globus复制目录服务可以使科学应用程序快速地进行数据访问,它是Globus复制管理的核。其工作原理是智能地把部分相关数据放置在离科学应用程序最近的位置。复制管理服务的功能主要包括:注册新的拷贝到复制目录中以、创建全部或部分文件集合的新拷贝、允许用户查询复制目录来找到部分或全部文件集合的拷贝。

4 基于网格环境中的数据复制具体实现

在网格环境中,我们在数据复制前要对具体问题进行具体分析,做好规划与设计。这就需要我们在设计时必须确定出需要复制的数据对象、数据库站点及类型、冲突解决方案、同步方式等内容。从而设计出一套详实并能满足实际业务需求的合理方案。在进行详细的规划与设计后,我们就可以按计划实现数据复制,具体操作如下:

1)创建数据复制站点;

2)创建组对象;

3)配置合理、详实的解决冲突方案。

下面,我们举例说明相关操作。我们会设置主控站点和共享数据表各两个,采用多主控站点复制方式。

主控站点分别为处理站点(handle.world)和解释站点(ex-plain.world);数据表分别为测区(region)和测线(line)。

1)用系统身份进行登录并访问主站点数据库。

2)为每个复制站点创建新用户,并为其授权复制管理员身份,其主要任务是负责创建并管理复制的站点,其代码如下图所示:

3)指定本站点的propagator,其主要职责是将本地的最新数据传播到其他站点上,完成任务。

4)指定本站点的receiver,其主要职责是接收其他站点上的propagator传输过来的数据,其代码如下图所示:

5)为了提高运行速度,我们需要定时清除已经加载的事务,在本例中设定每小时清除一次。这样做的目的是避免事务队列过长。

6)调度数据库链接

我们用同样的方法法创建处理站点(handle.world)和解释站点(explain.world)。创建的过程如下:首先,需要先在各个主控站点之间建立数据库链接,我们需要先建立一个公用的数据库链接,让它为其他私有数据库链接提供服务。同时,我们需要在解释站点(explain.world)上建立与处理站点(handle.world)的数据库链接。其次,我们要为每个数据库链接定义系统调度的时间。

5 解决数据复制中的冲突问题

在进行数据库系统和应用程序设计过程中,设计者会考虑到冲突的问题,在设计时进行优化操作,但是站点之间的冲突问题并不能完全避免。一旦发生冲突,就需要采用冲突解决机制来处理,从而保证各站点数据的一致性。我们可以通过以下几种方法来解决上述问题:

5.1 查看出错命令的具体内容

当出现复制冲突问题时,我们要及时了解哪些数据容易出现冲突。在系统中,静态数据很少出现冲突,发生冲突的主要是一些变化较大的动态数据。了解这一情况之后,我们要根据情况来解决冲突问题。其方法有如下几种,方法1:建立各站点间的优先次序,在数据不一致时,系统以基准站点上的数据为准;方法2:当数据不一致时,系统以某个站点上最新更新的修改为准。

虽然数据库中提供了很多解决方案来避免冲突,如针对更新冲突、删除冲突、唯一性冲突等多种冲突的解决方案。这些方案都有相应的适用范围,用户可以根据具体的业务情况来选择合适的方案来解决冲突问题。除了这些系统中的方案以外,我们还可以通过自定义方案的方法来处理冲突问题。

5.2 比较数据之间的差异

如果遇到一些查询复制出错的语句,使用人工处理同步失败时相对容易。但是当复制错误的命令很多时,就会比较麻烦,使用以上方法难以处理。这种情况下,我们一般会选择忽略失败的复制命令,然后通过比较订阅表的数据之间的差异来解决问题。

上一篇:收入初次分配下一篇:报考条件