双机热备系统论文

2024-07-06

双机热备系统论文(精选7篇)

双机热备系统论文 第1篇

煤矿水泵控制系统是保证煤矿安全生产的重要部分。系统需要长时间不间断运行,一旦控制机发生死机故障或应用停机,可能造成巨大的经济损失甚至人员伤亡。双机热备指高可用系统中的两台控制机高可用,双机热备切换方式分为主—备方式和双主控机方式。主—备方式是指一台控制机处于某种业务的激活状态,另一台控制机处于该业务的备用状态。本文介绍一种应用于煤矿水泵控制系统中的主—备方式双机热备设计方案。该方案能在异常情况下确保系统的正常运行,提高系统的稳定性。

1 双机热备工作过程

煤矿水泵控制系统由两台控制机组成,一台为主控机,另一台为备用机。正常情况下由主控机向备用机发送心跳命令,心跳命令中包含系统的主要参数,如控制对象的状态、系统控制模式等。一旦主控机发生故障,备用机检测不到主控机的心跳命令,将在一段时间后自动将自身设置为主控机,并接管控制。双机热备工作过程包括自动侦测、自动切换、自动恢复。

(1) 自动侦测

系统运行时,主控机、备用机通过发送、接收心跳命令来侦测系统运行情况。为了保证侦测的正确性,防止判断错误,系统可设置安全侦测时间、侦测时间间隔、侦测次数等安全系数,通过冗余通信连线收集并记录这些数据,从而进行分析、判断。

(2) 自动切换

当确定主控机故障时,备用机除了保证自身原来的任务继续运行外,还将接管预先设定的后备作业程序。如果不能确定主控机故障,两台控制机应再进行信息交换和相应处理,并决定切换基础、条件、时延、断点。

(3) 自动恢复

故障主控机被替换后,通过看门狗将机器重新启动,启动完成后将自身设置成备用机。

2 水泵控制系统双机热备设计方案

2.1 总体设计

系统采用两台矿用本安型工业控制计算机KJD30Z作为主控机和备用机。两者互为冗余,自动切换,通过CAN总线进行数据传输。两台控制机通过以太网接入环网交换机,如图1所示。

2.2 基本业务流程

双机热备软件模块中,最重要的数据即两台控制机之间数据交互的心跳帧。心跳帧格式基于CAN协议,交互的信息包括本机地址、系统控制模式、每台水泵的运行状态、当前的抽真空方式、排水管路编号等。主控机和备用机业务流程分别如图2、图3所示。

在初始化模块中,为了解决两台控制机同时上电、争抢主控权的问题,上电后两台控制机都默认为备用机,执行备用机业务逻辑。控制机检测不到主控机的心跳命令时会自动将自身置为主控机。如果两台机器切换时间存在差异,当控制机A没有切换时,控制机B已经切换成主控机并开始发送心跳帧,A收到心跳帧后将停止切换;如果切换时间相同,控制机A和B同时切换成主控机,并开始发送心跳帧,A收到B的心跳帧后检测自身控制机地址,并与心跳帧中控制机B的地址相比较,如果A的控制机地址数值大于B,则将A设置为备用机,反之A仍为主控机。控制机B也执行相同的逻辑。

2.3 接管控制流程

主控机实现控制对象的一般操作,并通过CAN总线定时发送本机运行信息。备用机监测CAN总线信息,并更新数据。如果主控机在控制设备启停的过程中发生故障,则备用机切换成主控机后需立即接管控制。备用机检测到无主控机后,将自身升级为主控机,同时解析最后一帧心跳帧中控制对象的状态。若备用机发现系统中有设备正在启停过程中,则通过急停流程将其停止,避免设备失控,同时通过主控机上的看门狗重启原来的主控机,重启完毕后将其置为备用机使用。接管控制流程如图4所示。

3 结语

煤矿水泵控制系统双机热备设计方案实现了主控机与备用机的自动切换,达到了系统不间断运行的目的。该方案已应用于多个煤矿,取得了较好的效果。

摘要:介绍了一种应用于煤矿水泵控制系统的主—备方式双机热备设计方案,阐述了双机热备工作过程,详细介绍了双机热备的总体设计、基本业务流程及接管控制流程设计。两台控制机之间通过心跳帧实现数据交互,通过比较切换时间及控制机地址数值解决初始化时两台控制机同时上电、争抢主控权的问题,通过备用机接管控制解决主控机在控制设备启停过程中发生故障可能导致设备失控的问题。该方案实现了主控机与备用机的自动切换,达到了系统不间断运行的目的,提高了系统的稳定性。

关键词:煤矿,水泵控制系统,双机热备,主—备方式

参考文献

[1]李磊.分布式系统中容错机制性能优化技术研究[D].长沙:国防科学技术大学,2007.

[2]胡华平,肖晓强.重构双机系统的可靠性分析[J].航天控制,1997(3):62-66.

[3]胡庆平.新型心跳监测技术的研究与实现[D].武汉:华中科技大学,2004.

[4]李瑞.井下排水系统的监测与控制研究[D].太原:太原理工大学,2006.

[5]魏泽国,黄章,唐景肃,等.自动控制原理[M].北京:煤炭工业出版社,1994.

[6]蒋乐天,徐国治,应忍冬,等.系统可靠性和可用性分析技术[J].电讯技术,2002(4):121-126.

[7]单奇艺.双机热备系统在PDM中的应用[J].中国高新技术企业,2008(17):138,140.

[8]杨致伟.一种高效新型的双机热备防火墙的实现[J].信息安全与通信保密,2007(7):98-100.

[9]汤卫东.硬件冗余技术及可靠性评价[J].广西民族学院学报:自然科学版,2003(4):63-67.

[10]刘青昆,孙爱婷.具有容错机制的机群监控系统[J].计算机工程与设计,2010(21):4599-4602,4624.

[11]孙杰.监控主机双机热备系统的开发应用[J].工矿自动化,2010(4):73-75.

双机热备系统论文 第2篇

煤矿瓦斯灾害预警系统(以下简称预警系统)是基于地理信息系统技术,综合地质测量、瓦斯地质、采掘生产、通风防突、监测监控等业务管理信息,对各类瓦斯灾害发生的可能性进行实时智能判断、超前提醒的大型专家系统[1]。预警系统需要使用采掘进度、防突措施施工与日常突出预测、瓦斯体积分数等关系数据,更需要煤层瓦斯赋存、井巷工程、地质构造等空间数据[1,2]。预警系统的可靠性在很大程度上依赖于预警模型的有效性,此外,预警系统软硬件运行环境的可靠性也是影响系统可靠性的重要因素。研究设计高可靠性预警系统,除了根据矿井实际情况研究适用的预警模型外,还要设计高可靠性的预警系统软硬件运行环境。国家安全生产监督管理总局制订的相关行业标准要求: 煤矿安全监控系统及井下作业人员管理系统必须具备双机或多机备份, 且故障切换时间应小于5 min[3,4]。为解决预警系统软硬件运行环境的单点失效问题,本文提出一种基于双机热备的瓦斯灾害预警系统。

1 系统设计原则

首先,双机备份方案必须满足空间数据访问要求。预警综合数据库采用“空间+关系”混合设计方式,且空间数据使用版本化存储,使用多张表存储1个要素类,因此,采用简单的同步机制实现双机数据同步在技术上不可行。其次,双机备份方案必须满足预警服务运行要求。预警服务基于有状态设计,不接受客户端程序的直接连接,仅读取预警综合数据库,执行预警操作,然后将预警结果更新到预警综合数据库,客户端定时读取预警结果。最后,双机备份方案必须满足C/S客户端访问预警综合数据库及智能客户端将本地数据库同步到预警综合数据库的要求。

2 双机热备方案设计

2.1 适用于预警系统的集群

服务器集群是一种新技术,通过服务器集群可以在付出较低软硬件成本的情况下在性能、可靠性、灵活性方面获得相对较高的收益,其任务调度则是集群系统中的核心技术[1]。根据不同用途,集群系统可以分为3类:

(1) 高可用集群:在运行服务器发生故障时将其作业交接到待机服务器的集群。高可用集群以高可用性为目的,包括共享磁盘型和镜像磁盘型。

(2) 负载均衡集群:将客户端的请求按既定的负荷均衡原则分配给各节点的集群,以高扩展性为目的,一般无法进行数据交接。负载均衡集群包括load balance集群、并列数据库集群。

(3) 高性能集群:一般用于计算量很大的系统,使用超级计算机执行单一业务。使用所有节点的CPU来执行单一业务的网格计算技术近年来已成为热点,其本质就是高性能集群。

设计高可靠性预警系统的目的并非要让服务器接受大量的客户端访问,即无负载均衡要求;也不是要服务器承受大量的单一业务,即无高性能计算要求。其目的在于提高系统可用性,减少宕机恢复时间,因此,选择高可用集群方案完全能够满足预警系统运行环境要求。

2.2 双机热备运行模式

根据受控应用、数据存储及其他资源的分布特点,双机热备有3种运行模式:主备机模式、互备模式、双机双工模式。

(1) 主备机模式即2台型号相同或不同的服务器,其中一台处于工作状态,另一台处于待命模式,2台设备间用特定的方式通信,以告知彼此的状态。当备份机在一定时间范围内接收不到来自工作机的通信信息时,立即切换到工作模式,达到备份的目的。主备机方案有2种选择:① 共享硬盘型,即使用共享硬盘阵列存储数据、程序、配置信息,在切换时仅需要切换共享磁盘阵列的控制权;② 镜像硬盘型,即数据、程序、配置信息分别在2台机器上存储,在适当的时候进行同步,该方案以数据复制的时间为代价,但消除了共享磁盘阵列失效的风险,当然,共享硬盘阵列失效机率远比单一磁盘低。

(2) 互备模式即2台设备之间互相备份,彼此独立工作,完成不同的数据类型传输(设备甲处理或传输A类业务数据,设备乙处理或传输B类业务数据),当其中一台设备发生故障时,另一台设备在完成自己处理或传输工作的同时,接替另一台设备的处理或传输工作,达到备份的目的。典型方案:一台服务器作为数据库服务器,另一台服务器作为应用服务器,当其中一台服务器出现故障时,另外一台服务器承担所有任务。对于预警系统,正常情况下数据库系统运行于一台服务器;预警服务及预警网站运行于另外一台服务器;数据库文件存储于共享磁盘柜中,客户端通过虚拟IP访问预警综合数据库。

(3) 双机双工模式即2台服务器均处于活动状态,分别运行相同的应用,这样既保证了整个系统的性能和承载能力,也实现了负载均衡和互为备份,一般需要利用磁盘柜存储技术实现共享存储功能。对于预警系统而言,由于智能客户端本地数据库与预警综合数据库成对的数据复本内部机制较复杂,很难保证2个数据库的状态完全一致,而且必须保证复本两端一对一关系,因此,该模式不适用于预警系统。

考虑可靠性、成本、资源有效性及预警系统体系结构设计约束,本文选择互备模式作为预警系统的双机热备运行方案。

3 系统结构设计

3.1 硬件结构

国内外常见的商用双机备份软件有Microsoft公司的Cluster Service(简称MSCS)、Rose Datasystems公司的RoseHA、NEC公司的ExpressCluster等[5,6,7]。这3种软件的比较见表1。

根据表1,预警系统最终选择基于RoseHA和共享磁盘阵列的双机热备方案,其硬件结构如图1所示。

根据预警系统服务器要求,2个服务器功能分配如下:服务器A采用SQL Server 2005,包括预警综合数据库、监控预警数据库、防突信息数据库、短信数据库;服务器B包括突出综合预警服务、监控数据采集服务、监控预警服务、预警网站(IIS)、Web矿图查询系统。

3.2 软件结构

预警系统所涉及的业务部门具有空间上的分散性,涉及信息具有时间上的间歇性,因此,基于分布式数据库理论设计预警系统的数据存储方案。分布式数据库系统中的每个站点都保存中央数据库的一个副本。在正常运行期间直接访问本地数据库,定时或不定时集中将更新数据同步到中央数据库[8,9,10]。根据预警系统数据存储分布特点,可将预警综合数据库作为分布式数据库的主控副本,而各子系统本地数据库作为辅助副本,所有更新都先同步到中央数据库,再适时传送到其他各子系统本地数据库[11]。地质测量管理、瓦斯地质分析、采掘进度管理等子系统独立性较强,需要长时间编辑操作才能提交完整的数据更新,因此,采用本地数据库存储空间数据与属性数据作为分布式数据库的辅副本;而突出预警管理平台、突出预警服务等子系统,为了提高预警及防突流程控制的时效性,必须及时获取空间数据更新,因此,采用版本技术连接到预警综合数据库,执行空间数据的读写操作。

数据库分布特性决定预警系统在体系结构上必须支持差异性。综合考虑数据分布性、网络有限可用性、数据存取效率及预警结果发布的实时性和便捷性等因素,预警系统将所有客户端分为智能客户端、传统C/S客户端和B/S客户端3类。对于地质测量管理、瓦斯地质分析等子系统,采用基于分布式数据库的智能客户端技术,在客户端上不仅部署子系统应用程序,而且部署子系统数据库,采用空间数据复本(Replica)技术进行离线编辑,完成以后执行数据同步任务;对于预警管理平台、突出预警服务等需要获取实时数据的子系统则采用传统C/S技术,在客户端上仅部署子系统程序,直接连到预警综合数据库进行数据查询和编辑;对于仅关注预警结果信息、矿图信息的用户,不在客户端上安装任何程序,仅通过浏览器访问Web服务器即可获得结果。瓦斯灾害预警系统软件结构如图2所示。3类客户端运行特点见表2。

相对使用单一服务器的预警系统来说,基于双机热备方案的预警系统对系统结构有以下特殊要求:

(1) 对机器名的处理。不管是服务器端程序还是客户端程序,凡是代码中使用服务器名的地方,必须将其可配置化,并在配置文件中使用虚拟IP代替,而不应使用双机中任何一个服务器的机器名。

(2) 对MAC地址的处理。凡是服务器端程序代码中使用本机MAC地址的地方,都需要提取通过RoseHA设置的虚拟MAC地址。

4 系统实现

根据系统结构设计,在潞安矿业集团余吾煤矿预警系统实施过程中,2台服务器均采用IBM X3650 M3,共享磁盘阵列采用IBM TotalStorage DS3200,服务器使用SAS HBA线连接到共享磁盘阵列;局域网中客户端采用虚拟IP连接到服务器,为防止客户端错误连接,虚拟IP与服务器私有IP一般不在同一个网段上。双机系统切换流程如图3所示。

为便于研究,选择基于RoseMirrorHA的双机镜像方案(方案1)和基于RoseHA+共享磁盘阵列的方案(方案2)进行对比。在测试过程中,采用手动方式停止SQL Server服务,使服务器A切出,服务器B接管所有任务,所使用的时间见表3。

通过比较发现,2种方案的最大差别在于基于RoseMirrorHA的方案需要较长时间执行数据镜像,且执行数据镜像所需的时间因服务器负载、数据更新量而有所差异,而基于RoseHA+共享磁盘阵列的方案则仅需要加载共享磁盘,后者是一种以增加硬件成本来减少切换时间的思路。

5 结语

基于双机热备的预警系统已经在潞安矿业集团余吾煤矿、晋煤集团赵庄矿等投入正式运行。与已投入运行的相同型号的单服务器系统相比,该预警系统的平均故障间隔时间(TMTBF)由12 000 h(平均1年约0.73次故障)提高到21 000 h(平均1年约0.46次故障),平均故障修复时间(TMTTR)也有较大的缩短,系统的可用性(γ=TMTBF/(TMTBF+TMTTR)[12] )有较大提高。当然构建双机备份系统的软硬件成本比单服务器系统有较大增加,且互备模式的双机热备系统的可靠性一般低于主从模式的双机热备系统[13],因此,该预警系统的运行模式有待进一步研究。

摘要:针对煤矿瓦斯灾害预警系统软硬件运行环境的单点失效问题,设计了一种基于双机热备的瓦斯灾害预警系统,介绍了该系统的双机热备方案、软硬件结构设计及实现方法。该系统选用互备运行模式的双机备份高可用性集群及基于RoseHA和共享磁盘阵列的双机热备方案,提高了系统的可靠性。应用结果表明,与单服务器的预警系统相比,基于双机热备的瓦斯灾害预警系统的平均无故障间隔时间大幅增加,平均故障修复时间大大缩短,系统可用性有了较大提高。

双机热备技术在财务系统中的应用 第3篇

目前主流应用的服务器容错技术有三类, 它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的, 也就是说服务器群集技术容错级别最低, 而单机容错技术级别最高。决定使用哪种服务器容错技术, 正确的方法是要分析一下系统的重要性以及用户对服务中断的容忍程度, 即系统用户能容忍多长时间的服务中断, 如果服务器不能尽快恢复会造成多大的影响。

1.1 集群技术

所谓集群就是共同为客户机提供网络资源的一组计算机系统。而其中的每一台提供服务的计算机, 称之为节点。当一个节点不可用或者不能处理客户的请求时, 该请求将会转到另外的可用节点来处理, 而这些对于客户端来说, 它根本不必关心这些要使用资源的具体位置, 集群系统会自动完成。集群中节点可以以不同的方式来运行, 这要看它们是如何设置的。在一个理想的两个节点的集群中, 两个服务器都同时处于活动状态, 也就是在两个节点上同时运行相同的应用程序, 当一个节点出现故障时, 运行在出故障的节点上的应用程序就会转移到另外的没有出现故障的节点上, 这样一来, 由于两个节点的工作现在由一台服务器来承担, 自然会影响服务器的性能。针对这种情况的解决方案是, 在正常操作时, 另一个节点处于备用状态, 只有当前活动的节点出现故障时该备用节点才会接管工作, 但这并不是一个经济的方案, 因为你不得不买两台服务器来做一台服务器的工作。虽然当出现故障时不会对性能产生任何影响, 但是在正常运行时的性能价格比并不太高。

1.2 双机备份技术

双机热备份技术:是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜 (也可没有, 而是在各自的服务器中采取RAID卡) 及相应的双机热备份软件组成。原理如图1所示。在这个容错方案中, 操作系统和应用程序安装在两台服务器的本地硬盘上, 整个应用系统的数据是通过磁盘阵列集中管理的。数据集中管理是通过双机热备份软件, 将所有站点的数据直接从中央存储设备读取和存储, 并由专业人员进行管理, 极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中, 在一台服务器出现故障时, 备机主动替代主机工作, 保证网络服务不间断。

双机热备份的工作模式即目前通常所说的active/standby方式, active服务器处于工作状态;standby服务器处于监控准备状态, 服务器工作时将数据写入共享磁盘阵列 (或同时向两台或多台服务器写入, 通常各服务器采用RAID磁盘阵列卡) , 保证数据的即时同步。当active服务器出现故障的时候, 通过软件诊测或手工方式将standby机器激活, 保证应用服务在短时间内完全恢复正常使用。双机热备典技术型应用在证券资金服务器或行情服务器, 这是目前采用较多的一种模式。

双机互备模式:是两个相对独立的应用在两台机器同时运行, 但彼此均设为备机, 当某一台服务器出现故障时, 另一台服务器可以在短时间内将故障服务器的应用接管过来, 从而保证了应用的持续性, 但对服务器的性能要求比较高。

双机双工模式:是目前cluster (群集) 的一种形式, 两台服务器均为活动, 同时运行相同的应用, 保证整体的性能, 也实现了负载均衡和互为备份, 需要利用磁盘柜存储技术 (最好采用San方式) 。WEB服务器或FTP服务器等用此种方式比较多。

1.3 单机容错技术

单机容错技术则是在一台服务器上实现高性能容错的, 它的容错能力要远比服务器群集和双机热备份中容错能力要高。容错服务器是通过CPU时钟锁频, 通过对系统中所有硬件的备份, 包括CPU、内存和I/O总线等的冗余备份, 通过系统内所有冗余部件的同步运行, 实现真正意义上的容错。系统任何部件的故障都不会造成系统停顿和数据丢失。

以往的集群系统在出现故障的情况下, 需要中断服务器的运行, 然后用一定的时间切换至备用的服务器才能进行维修和恢复, 这在实时响应要求非常高的应用领域是不可容忍的。具有容错技术的容错服务器, 最大的优势就在于它能够自动分离故障模块, 在不中断运行的情况下, 进行模块调换, 对损坏的部件进行维护, 并且在一切物理故障消除后, 系统会自动重新同步运行, 从而有效的解决了客户的后顾之忧。

双机热备份和容错服务器的定位稍微有些不同, 这是由两者实现的可用性差别决定的。双机热备份一般可以实现99.9%的可用性, 容错服务器却可以实现99.999%的可用性。双机热备份大多应用在业务连续性不是很严格的行业, 比如说公安系统、部队系统或者个别的制造企业, 这些行业的应用允许数据有一小段时间的中断。而如电信、金融、证券和医疗等要求高的行业则是容错服务器的天下。

2 双机热备技术在大港石化公司财务系统中的应用

结合石化公司财务处的需求及高可用性方面的考虑, 按照财务系统的架构, 对原有进行系统的全面升级改造, 使用共享存储的双机热备形式来提高整个系统的可用性。应用服务器和数据库服务器分别采用双机技术, 使用共享的光存储设备。两组服务器采用光纤通道同磁盘阵列相连接, SYBASE数据库文件及应用服务器数据文件保存在共享磁盘阵列中。两台服务器采用active/standby方式, 在工作过程中, 两台服务器以一个虚拟的IP地址对外提供服务, 双机热备软件控制服务器的响应, 将服务请求发送给active服务器处理。同时standby服务器通过心跳线 (目前往往采用建立私有网络的方式) 侦测另一台服务器的工作状况。当active服务器出现故障时, standby服务器根据心跳侦测的情况做出判断, 并进行切换, 接管服务。对于用户而言, 这一过程是全自动的, 在很短时间内完成, 从而对业务不会造成影响。

2.1 硬件配置

本系统由4台IBMx3560服务器作为系统的硬件业务平台, 其中2台为应用服务器业务平台, 组成双机热备组, 另外2台作为数据库服务器硬件平台, 组成双机热备组;1台EMC AX4-5存储盘阵作为共享存储平台, 数据库服务器及应用服务器的相关数据以共享的形式保存在盘阵上;2台Cisco 9124光纤通道交换机, 同磁盘阵列、服务器一起组成SAN存储网络。

2.2 软件配置

在本项目中由于存在多条冗余路径, 所以对多路径如何进行管理就成为了提高系统运行效率和系统稳定性的重要因素, 基于稳定性和效率方面的考虑, 采用了EMC的PwoerPath软件来管理多条I/O通路间的负载均衡。

EMC PowerPathTM软件用于增强存储环境中开放系统的运行性能, 使服务器可以在较少的时间内完成更多的工作, 并消除I/O通路中的单点故障。PowerPath工作原理如图2所示。

在PowerPath体系结构中使用的设备:PowerPath在逻辑设备和物理设备的可用通路之间提供一对多映射。如果不使用PowerPath, 映射关系是一对一映射的, 一个设备只存在一个有效通路。原理如图3所示。

PowerPath软件体系结构:PowerPath软件具有一个“强大的驱动器”, 它放置在主机上, 位于主机总线适配器 (HBA) 设备层之上。这个透明的部件使得PowerPath可以创建虚拟的“强力设备”, 为EMC存储系统提供防止故障和负载均衡的通路。

双机热备的核心软件选择的是EMC AutoStart双机热备软件。在服务器上安装Autostart集群管理软件, 通过策略脚本对热备组服务器之间的切换进行控制。

EMC AutoStart支持无限制主机数量的群集组合, EMC AutoStart能按客户发展需求增加EMC AutoStart群集服务器及所载应用程序数量;提供故障监察、修复、重新启动及排除故障功能;能单独修复个别故障应用, 缩短系统复原时间;动态负载调节, 确保故障出现时, 应用程序能平均地分布在不同服务器上;灵活、可靠、可调的群集构造, 为日后扩展作好充分的准备;模块构造和开放式APIs与现在系统的各个环节配合, 确保端对端可靠性;协同数据库及RDBMS数据备份服务器;提供中央管理, 监察群集组内不同的UNIX平台。EMC AutoStart的这些关键技术可以为系统提供高可用性, 可管理性和扩展性。

2.3 系统实施

在这套双机系统中, 为每台服务器配置2块千兆以太网卡, 其中1块Ethernet作为HeartBeat (心跳) 线接口, HeartBeat线通过交叉线相连。Heartbeat接口配置双机热备组的私用IP地址, 用于相互监视对方的健康状况。另外1个Ethernet网口用于配置服务器实际IP地址, 把服务器接入到财务专用网络上, 原有的防火墙等安全设备配置不变。

在存储共享的实现上, 为每台服务器安装2块FC HBA卡, 2块HBA卡互为备份, 通过两台光纤交换机同磁盘阵列进行连接, 这样就可以组合出多条访问存储设备的通路。

在解决双机监控方面, 在每台服务器上安装EMC AutoStar双机管理软件。通检测服务器的网络连接状态、服务器关键服务进程状态及双机与共享盘阵的连接状态控制双机的切换。EMC AutoStar双机软件支持虚拟IP技术, 将active主机和standby的IP虚拟为对外工作IP。一旦active服务器的检测状态发现异常, AutoStar会立刻激活standby服务器, 接管故障服务器上所有的服务, 整个切换过程对用户不会造成大的影响, 而且是对用户透明的。

3 结 语

整个系统在实施完成之后实现了以下功能:实现数据及应用的分离存储, 整个系统的数据都保存在外部存储盘阵上, 避免了由于服务器硬件损坏而导致的数据丢失;关键性部件和SAN存储通道均实现了冗余配置, 基本消除了单点故障的可能性;服务器之间进行双机热备份, 即应用服务器和数据库服务器都是有两台一样的机器组成的热备组, 热备组中的一台机器发生问题 (软件或硬件方面) 服务后, 另外一台机器会迅速接管故障机器的应用, 整个切换过程是由AutoStart双机软件根据策略自动进行的, 无需管理员手动干预, 系统切换的速度快, 简化了系统维护工作量。

摘要:随着现代化信息技术的发展和企业信息化进程的推进, 信息应用系统已经推广到企业日常办公的各个领域。应用系统的高度自动化为以往的工作带来很大的方便, 同时也提高了工作效率, 企业的运转已经离不开应用系统的支持。所以对于企业重要的应用系统而言, 保证系统持续、可靠地提供服务是非常重要的。财务系统作为企业中最核心业务应用之一, 对于稳定性、安全性和高可用性有着极高的要求, 尤其是在财务部门月底做报表的时候, 财务服务器是绝对不允许出故障的。

关键词:双机备份,安全性,节点,财务系统

参考文献

[1]马纪颖, 朱力军, 张颜.Web信息检索中信息分类计数研究[J].现代电子技术, 2008, 31 (10) :76-78.

[2][美]格巴斯.Sybase ASE12.5性能优化[M].张崇文, 译.北京:电子工业出版社, 2005.

[3]袁科萍, 岑岗, 攀庆红.Unix Shell编程[M].3版.北京:中国铁道出版社, 2004.

[4]冯海军.双机热备技术的应用[J].科技信息, 2008 (14) :27-28.

[5]杨锐, 冷祥.三层交换技术在局域网中的应用[J].电脑知识与技术, 2008, 1 (3) :441-442.

[6]杜永春, 张喜柱, 陆长福.财务管理[M].北京:新华出版社, 1996.

[7]郭永基.可靠性工程原理[M].北京:清华大学出版社, 2002.

[8]黎邵平, 李锡文.双机热冗余控制系统的可靠性分析[J].自动化技术与应用, 2006 (12) :18-20.

双机热备系统论文 第4篇

关键词:自动控制技术,热备冗余,分析,控制系统,现代温室,可靠性分析

0 引言

中共中央国务院出台的2007年中央“一号文件”明确将发展现代农业作为社会主义新农村建设的首要任务。现代温室作为现代农业种养的有效设施,综合运用了农业科学、信息科学、管理科学和控制科学等相关学科的信息、技术和知识,能为温室内动植物创造最优的生长发育环境;它打破了动植物生长发育的地域和时空界限,在蔬菜种植、花卉种植、水产养殖及种养结合等生产领域得到了广泛的应用和推广。为了获得动植物最优生长发育环境,现代温室中常常安装有许多机械、电气、液压和控制等设施与装置,并在控制系统的作用下相互协调。现代温室设施控制系统作为现代温室的核心,由于其控制规模较大,控制点较多,应具有高的可靠性,才能为动植物生长发育创造最优环境。为了提高控制系统的可靠性,现代温室设施控制系统常采用双机热备冗余控制策略,当其主CPU发生故障时,自动切换到备用CPU。定性分析和评价现代温室设施双机热备冗余控制系统的可靠性,对于全面获悉整个现代温室的性能指标十分重要。

1 结构及可靠性分析基础

1.1 双机热备冗余控制系统结构

双机热备冗余控制系统结构简图,如图1所示。双机热备冗余控制系统采用两个完全相同的CPU同时参与运算和控制。在热CPU(主CPU)处于正常条件时,温室设施所有I/O模块都由热CPU控制。在此期间,备用CPU(热备CPU)不执行热CPU运行程序,但复制热CPU的内部设备数据,对热CPU进行数据跟踪,即备用CPU虽然参与运算但处于后备状态。如果一旦热CPU出现异常,备用CPU根据数据跟踪得到的最新数据即刻接管整个控制系统的控制功能,以保证系统的正常运行,将出现故障的CPU模块卸下维修或更换,不影响系统的运行,从而提高控制系统的可靠性[1,2]。

1.2 可靠性分析基础

1)马尔可夫过程。对于可修复的系统需进行以下假设[3,4]:系统只能取离散状态,并且系统在这些离散状态之间循环转换;系统状态转换的概率是常数,即故障率和修复率是常数,故障时间和修复时间服从指数分布;状态转换可能在任意时刻发生,但是在相当小的时间段内,不可能发生两次状态转换过程。

在使用过程中,可修复控制系统从正常工作状态转移到故障状态,然后经过维修回到正常工作状态,如此循环往复。同时,可以用概率法来描述两种状态相互转移过程。设随机过程的状态空间为I,如果对时间t的任意n个值下,若的条件分布概率函数满足

则称这个随机过程为马尔可夫过程。在可修复控制系统可靠性分析中,主要考虑时间和状态都离散的齐次马尔可夫过程,该过程只与终止时刻和起始时刻之差有关,即

其中,i≠j。

2)可靠性分析评价指标。控制系统可靠性常用可靠度(Reliability)、平均无故障工作时间(Mean Time Between Failures)及故障率(Failure Rate)等进行定量评价。

可靠度指工作单元或边正常工作事件发生的概率,即系统从开始工作起,在规定条件下的工作周期内,达到所规定的性能(即处于无故障的正常工作状态)的概率,用R(t)表示,即

式中R(t)—可靠度;

P—正常工作事件E(i)发生的概率;

E(i)—第i个工作单元或边正常工作事件。平均无故障工作时间指可修复的机器、零件或

系统相邻故障之间的平均正常工作时间,用M表示,对可靠度R(t)表达式积分,可以得到平均无故障工作时间,即

故障率通常指瞬时故障率,又称失效率、风险率。即指在t时刻尚未失效的能工作到某个时间的机器、零件或系统,在该时刻后的单位时间内发生失效的概率,用λ(t)表示,即

式中

2 可靠性分析

在对现代温室设施双机热备冗余控制系统进行可靠性分析时,为了利用马尔可夫过程,需假设主CPU单元和热备CPU单元的故障率均为常数λ,修复率为常数µ。根据发生故障CPU单元的情况,系统工作时存在3种不同状态。

1)x0:主、备两个CPU单元都正常工作。

2)x1:一个CPU单元发生故障,处于修复状态;另一个CPU单元正常工作。

3)x2:两个CPU单元都发生故障,其中一个处于修复状态。

取单位时间间隔∆t,系统从时刻t至时刻t+∆t发生不同状态之间转换的概率为

由于∆t是很小的时间间隔,为了计算简便,将其高阶无穷小忽略不计;当达到状态x2时,系统已不能正常工作,为死循环状态,此时P2,1(∆t)=0,P2,2(∆t)=1,从而可以得到系统状态转移图,如图2所示。

在t+∆t时刻,系统处于状态x0,x1和x2的概率分别为

当∆t→0时,式(10)转化为线性微分方程组,即

在系统投入使用时,处于状态x0,可以确定初始条件:。用拉氏变换求解式(11)得

系统处于状态x0和x1时可以正常工作,所以双机热备冗余控制系统CPU单元可靠度为

则双机热备冗余控制系统CPU单元的平均无故障工作时间M为

对于双机热备冗余控制系统CPU单元,单个CPU单元的平均无故障工作时间可达几万小时。若取单个CPU单元的平均无故障工作时间为10000h,则其故障率λ=0.0001,取修复率µ=0.01,则由式(15)得双机热备冗余控制系统CPU单元的平均无故障工作时间为

从式(16)可知,双机热备冗余控制系统CPU单元的平均无故障工作时间较单个CPU单元的平均无故障工作时间大得多(能提高2个数量级),较整个控制系统的其它边、节点和各子系统可以视为绝对可靠。

3 结论

现代温室是现代农业种养的有效设施,能为温室内动植物创造最优的生长发育环境。现代温室设施控制系统作为现代温室的核心,由于控制规模较大,控制点较多,应具有高的可靠性。当现代温室设施控制系统采用双机热备冗余控制策略时,在其主CPU发生故障时,能够自动地切换到备用CPU,极大地提高了控制系统CPU单元的可靠性。双机热备冗余控制系统CPU单元较整个控制系统的各边、节点和子系统绝对可靠。

参考文献

[1]郭永基.可靠性工程原理[M].北京:清华大学出版社,2002.

[2]郑建立,路林吉.双机热冗余可修复容错控制系统的可靠性分析[J].中国纺织大学学报,1999,25(1):67-69.

[3]黎邵平,李锡文.双机热冗余控制系统的可靠性分析[J].自动化技术与应用,2006(12):18-20.

双机热备方案探讨 第5篇

在信息系统建设中充满安全危机,一个小小的硬件故障或误操作都有可能造成网络出现停滞或瘫痪,使业务蒙受损失。同时,信息系统建设的目标是对来自内外的业务信息、业务数据、重要信息、安全保密信息的综合有效的利用和管理,随着信息的膨胀、网络技术及产品的发展,安全性问题日趋严重,系统中断、信息的泄密、丢失、篡改、毁坏、盗用等等对所有的单位来说都是一种灾难。

目前自动化成度高,各单位对服务的安全性、可用性,依赖性变大,甚至要求24小时不允许停机,在这种情况下,服务器的双机热备就显得非常必要及迫切。从以前加大的硬件可用性,到现在的双机要备用,来保证服务器的不停机运行,是服务器高可用性的一次重大的进步。

2 需求

服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。

在保持应用服务运行上面有负载平衡和双机热备两个选择。但是负载平衡主要应用于访问用户数量过大的情况,对于中小企业而言会造成资源浪费,而且它只能应用在Windows系统服务中。

而决定是否使用双机热备正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。

另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。

还应指出的是,一些其他的防护措施如磁盘阵列(RAID)、数据备份虽然是非常重要的,但却不能代替双机热备的作用。

3 双机热备原理

PlusWell Cluster容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。

在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时,会经历一个十分短暂的休眠。但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。

3.1 心跳故障检测Heartbeat

PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster容错软件就把这条路径标示为失效(红色)。

如果只定义了一条通信路径,当PlusWell Cluster容错软件把这唯一的一条通信路径标为失效时,PlusWell Cluster容错软件便立即开始恢复过程。然而,如果有冗余路径,PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉需要修复有故障的路径。

一般情况下PlusWell Cluster容错软件只在下列事件发生时,启动系统恢复功能:

(1)所有的通信路径故障。如果所有节点都没能收到心跳信号,把所有通信路径都标为失效,PlusWell Cluster容错软件开始安全检查。

(2)安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。

因而,为了减少由于潜在的通信错误所引起的不必要的系统切换,需要使用不同介质的多条通信路径。

3.2 通信路径

PlusWell Cluster容错软件支持在节点之间和心跳通信中,使用如下通信路径:

(1)socket,即套接字。使用任何的网络硬件接口,只要它能够支持TCP/IP的通信协议。这样的硬件包括:以太网、快速以网。

(2)串行口:在PlusWell Cluster容错软件配置中,应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。

PlusWell Cluster容错软件假定当通过心跳信号检测其他服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。

3.3 网络数据镜像

与常规的双机系统相比,纯软件双机热备份系统的两台服务器之间少了公共的存储设备(通常是磁盘阵列),但是多了网络数据镜像软件Mirror。没有了公共存储设备磁盘阵列,对于某一个需要进行切换的服务而言,怎样保证其所用的数据在两台服务器上是一致的呢?这就是数据镜像软件PlusWell NT Mirror的功能所在:NT Mirror通过网络,将某一台服务器上指定路径下的数据采用同步或异步方式,镜像到另一台服务器。

镜像软件取代双机热备份系统的磁盘阵列,关键之处在于其必须与Cluster软件协同工作。当某一服务运行于服务器A时,它所使用的特定数据在服务器A上对应于一个数据集合ФA,通过NT Mirror将源数据集ФA镜像到服务器B成为目标数据集ФB,当NT Cluster将该服务程序从服务器A切换到服务器B时,它使用服务器B上的数据ФB,同时NT Mirror自动修改原来从ФA到ФB的镜像成为从ФB到ФA的镜像。对一个服务程序是这样,对多个服务程序,则一一建立服务程序与数据镜像集之间的关系。这样,无论服务程序运行于哪一个服务器,始终保证其所使用的数据在对端服务器有一份镜像存在;当一台服务器由于硬件或软件原因发生故障失效,另外一台可在保证提供自己原有服务的同时,启动失效服务器的应用程序从而取代其服务器功能。

4 双机热备方案

4.1 双机热备工作模式

双机热备份方案中,根据两台服务器的工作方式可以有3种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。

双机热备模式即目前通常所说的active/standby方式,active服务器处于工作状态;而standby服务器处于监控准备状态,服务器数据包括数据库数据同时往两台或多台服务器写入(通常各服务器采用RAID磁盘阵列卡),保证数据的即时同步。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。这是目前采用较多的一种模式,但由于另外一台服务器长期处于后备的状态,从计算资源方面考量,就存在一定的浪费。

双机互备模式:是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高,配置相对要好,而且双机要求配置完全一样。

双机双工模式:是目前cluster(群集)的一种形式,两台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份,需要利用磁盘柜存储技术(最好采用San方式)实现共享存储。

4.2 双机热备形式

采用的是Active/Standby方式,这是传统的双机热备份解决方案,主机运行时,备机处于备用状态,当主机故障时,备机马上启动将服务接替。因备机平台没有其他的访问量,所以故障切换后用户访问速度不会有大的影响,此种容错方式主要适用于用户只有一种应用,主备机设备配置不太一样,并且用户访问量大的情况。

PlusWell Cluster提供Mirror(镜像)软件,用户无需使用较贵的Raid磁盘子系统,也不必考虑主机的距离,主服务器的数据通过Mirror软件将数据实时的复制到备用服务器上,保证主备服务器上的数据的一致性,这样完成主备服务器的双机热备功能。

增量镜像功能:PlusWell Mirror软件可以做到数据的增量镜像,当备故障停机或用户重启备机后,主机以增量方式向备机做数据的镜像,这保证的数据的安全性和用户的使用。

数据备份则通过网络由备份服务器上的备份软件Veritas Backup Exec将网络上的数据备份到介质服务器上。Bakeup Exec是高性能的Windows服务器网络数据管理解决方案。通过其他客户机/服务器设计,为跨网络的服务器和工作站提供了快速可靠的备份和恢复能力。采用VERITAS Backup Exec软件,能有效保护与管理企业内部的关键资料。

5 结语

对于日益承担企事业单位核心业务的NT网络来说,数据的高可用性和系统的连续运转能力极其重要,作为实时服器与数据保护解决方案,双机热备提供了数据的高可用性、运行系统的自动切换及最少的恢复时间。在实际应用中,该方案的成功已经得到了证实。

参考文献

[1]王达.网管员必读-服务器与数据存储.北京:电子工业出版社,2007.

[2]赵松涛.深入浅出:网络服务器配置与管理.北京:人民邮电出版社,2006.

双机热备系统论文 第6篇

(1.Yueyang Vocational Technical Colledge,Hunan Yueyang 414000;2.Yueyang Civil Affairs Bureau,Hunan

Yueyang 414000)

0 引言

当今网络时代,存储技术正在发生着革命性的变化,并进入了一个全新的时代。SAN(存储区域网络)是近来业界十分引人注目的技术,它一方面能为网络上的应用提供丰富、快速、简便的存储资源;另一方面又能对网上的存储资源实施集中统一的管理,成为当今理想的存储管理和应用模式。调查显示,存储网络是计算机网络专业一个新兴的热门方向,企业急需掌握存储技术的人才,就业前景好,待遇高。为适应时代的需要,我校NCIE认证班前瞻性地开设了系统的网络存储课程,包括SAN网络基础和SAN网络技术,从学习知识的连续性上培养学生适应社会的优势。

双机热备是存储技术中十分重要的一部分,我们将双机热备实验列为SAN网络应用实训内容的一部分,具有重要意义。

1 什么是双机热备

双机热备从广义上讲,就是对重要的服务使用两台服务器互相备份,共同执行同一服务。当一台服务器出现故障时,另一台服务器承担服务任务,在不需要人工干预的情况下,自动保证系统持续提供服务。从狭义上讲,双机热备特指基于Active/Standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或使用一个共享的存储设备,同一时间只有一台服务器运行。当运行着的服务器出现故障时,另一台服务器通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证短时间内完全恢复正常使用。

双机热备技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备软件组成。操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据通过磁盘阵列集中管理和备份。数据集中管理通过双机热备系统,将所有站点的数据直接从中央存储设备读取和存储,并由专人管理,极大地保护了数据的安全性。用户数据存放在外接共享磁盘阵列中,一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。

双机热备系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,是指主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或备用系统无法收到主机系统的“心跳”信号,则管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统代替主机发挥作用,保证网络服务运行不间断。

2 为什么要做双机热备

数据畅通、访问及时是各企事业运营管理的重要任务之一,工作正常运行直接影响到管理运作质量和管理的经济效益,双机热备成为了一个理想的选择。

双机热备针对的是服务器的故障。技术人员在现场的情况下,排除故障往往需要几个小时以上。如果技术人员不在现场则恢复服务的时间更长。而对于一些重要系统而言,用户很难忍受长时间的服务中断。因此,需要通过双机热备来避免长时间的服务中断,保证系统长期、可靠的服务。

一些其他的防护措施如磁盘阵列(RAID)、数据备份虽然非常重要,却不能代替双机热备的作用。

3 Plus Well Cluster软件介绍

Plus Well Cluster容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。它不需任何特别的容错硬件,并会自动提供错误检测和现场恢复。出现故障时,它会将保护资源自动转换到一个根据预先设定好优先权的系统。切换资源时,会经历一个短暂的休眠,但完成切换操作后,它会在所选的节点上自动恢复操作。

(1)功能特性。该软件是高性能集群产品,主要保证应用系统的高可用性,即保证应用系统的连续性。它主要通过心跳线传输信号判断当前应用系统的状态。

(2)技术领先性。北京蓝科泰达科技有限公司是国内唯一一家在热备行业完全具有自主产权的企业,在国际上也具有领先的水平,最先提出了快速资源和本地资源的概念。

(3)稳定性。该软件进行了严格的测试,又经过客户的实践检验,表现出了极强的稳定性,广泛应用于军事、金融、通讯、政府、工矿企业。

(4)界面友好性。该软件在同业当中首先采用了中英文双语界面,界面简洁,配置、维护方便简单。

4 使用Pluswell Cluster实现双机热备实验的优势

在实验室实现双机热备实验难度较大。当前市场各种双机热备软件很多,但一般价格昂贵,操作界面不友好。Pluswell Cluster是一个国产的双机热备软件,可在网上下载其免费试用版,其界面友好,支持中英文双语显示。实验证明,其在本校实验室环境下运行稳定,各种备份都能较好实现,是让学生实际操作、体验实验过程效果的较好选择。

5 实验内容

5.1 实验环境

(1)两台服务器;

(2)网络通讯正常,IP地址设置完毕(最少具有两片网卡,其中一片网卡用于配置公网,同时兼做心跳线;另一片网卡直联,专用于配置心跳线,同一台服务器两片网卡的IP地址必须设置在不同网段。)

5.2 实验步骤

(1)Pluswell Cluster软件的安装及使用手册的阅读;

(2)双网卡的安装,心跳线的制作、连接,两块网卡IP地址的设置;

(3)双机热备的实现。Pluswell Cluster分为心跳界面和资源界面。配置完成后,心跳界面会有两台服务器的图标,中间的两根连线,就是心跳线,绿色表示状态正常,心跳变红表示备机出现故障。

5.2.1 心跳配置(TCP/IP心跳)。

(1)菜单“心跳--创建心跳”;(2)“心跳类型”选择“TCP/IP端口”,主机IP选择心跳所用IP地址;(3)在备机空白框手动输入备机计算机名,备机IP处会自动显示出该机的所有IP地址,选中对应的IP地址,端口号会自动配置。

5.2.2 卷锁配置

卷锁是对共享存储文件系统的一种保护机制,避免了共享存储同时被来自两个节点系统的访问而造成对文件系统的损坏。卷锁创建完后,在主机上可正常读盘柜,备机不显示盘柜。主备机要对共享磁盘指定相同的驱动器符号。

(1)菜单“普通资源”-“卷锁”,卷标识可选择默认,如建多个卷锁,最好改为盘符或其他易于管理的名称;(2)选择磁盘阵列对应的磁盘号,磁盘卷号会自动出现。

5.2.3 虚拟IP配置

虚拟IP,又称可切换IP、飘移IP,是Pluswell Cluster虚拟出来的IP地址,为服务器对外提供服务的IP地址,即客户端访问的IP地址。虚IP要和下面第五步选中的IP在同一个网段(三个IP在同一个网段),其他设置选择默认即可。

(1)菜单“普通资源”-“切换IP”,在可切换的IP处输入虚拟IP;(2)输入子网掩码,即虚拟IP的子网掩码;(3)选择相应的网络适配器和对应的IP地址。

5.2.4 文件共享资源设置

在盘柜上配置文件夹的共享权限后,能保证经过双机切换权限不丢失。创建资源之前应先设置文件夹权限,创建资源完毕不能再修改权限。

(1)普通资源”--“文件共享”;(2)输入共享文件名--〉创建。

5.2.5 NT服务资源配置

NT服务是指可被Pluswell Cluster监控和管理的系统服务,在配置时应根据实际情况选择对应的服务。所有被监控和保护的NT服务的启动和停止,都应通过Pluswell Cluster来完成,以保障整个系统的安全和稳定。

(1)“普通资源”-“NT服务”;(2)在“本机NT服务”里选择对应的服务资源;(3)将选择的资源添加到“保护的NT服务”里。

5.2.6 应用程序资源配置

应用程序主要指系统中可执行的EXE程序文件,需通过脚本文件来调用这些程序。

(1)“普通资源”-“应用程序”;(2)填写资源名称,选择编写的启动/停止脚本;(3)把应用程序的进程名写上,点击“添加进程”。

6 测试

(1)手动切换测试。测试方法:进行手动切换,正常情况下,资源会在主机停止,在备机依次启动资源。

(2)拔网线测试。测试方法:拔掉主机外网网线,正常情况下,资源会在主机停止,在备机依次启动资源。

(3)关机测试。测试方法:关闭主机,正常情况下,资源会在备机依次启动。

7 实验效果

经在本校05、06级两个NCIE认证班实际实施,学生自己动手配置,并观察记录实验过程,证明“使用pluswell cluster实现双机热备”达到了预期的实验教学效果,很好地解决了实验经费不足、实验对机器带来的危险性等问题。

参考文献

[1]Marc Farley著.孙功星等译.SAN存储区域网[M].北京:机械工业出版社,2001.

基于双机热备的可靠多播通讯设计 第7篇

多播提供了一种以一对多的方式发送数据的有效通讯机制[1],高效的显著特点使它广受青睐,但它是开放式的尽力而为的模型,它没有为上层提供任何服务质量和投递保证,因此可能造成数据的丢失、延迟、重复或乱序到达[2]。为了提高多播传输的可靠性,人们提出了大量的可靠多播协议。但是,由于不同应用的需求差异很大,设计一种在各种不同应用情况下都适合的多播协议是不可能的。

可靠性的最基本要求就是将报文准确无误地发送给目端,其次要求报文的有序性即报文按发送的先后顺序依次投递给目端应用。现阶段,提高多播可靠性的方法主要是在协议里加入重传机制,当检测到丢包或错误的数据包时,源端重新发送该报文。重传机制有两种实现途径,一种是基于肯定确认(ACK)的模型,一种是基于否定确认(NACK)的模型[3,4,5]。基于肯定确认ACK的模型是由发送者负责检测数据分组是否被可靠传输[3,4,5],接收者对每个收到的分组数据进行确认,给发送者返回ACK。在这种确认模型下,发送者必须知悉和维护多播组中的成员状态,并且随着多播组成员的增长,接收者回给发送者的ACK数目不断增长,不但占用大量的资源,还易引起“ACK风暴”;基于否定确认NACK的模型是一种由接收者负责分组数据丢失检测的模型[5,6,7,8],当接收者发现报文丢失或错误,给发送者发送NACK,这样极大减轻了网络负担,不易引起“NACK风暴”,特别还有一点好处是,发送者不必知悉和维护多播组中的成员的状态,极大减轻了发送者的负担。当前比较著名的可靠多播协议都是基于NACK的,比如S.Floyd等提出的SRM[8](Scalable Reliable Multicast)。

1 SFRM(Simple Flexible Reliable Mul-ticast)协议

上节提到普适的多播是不存在的,不同的应用环境,必须设计出一个特有的多播协议与之适应。有这样一类应用环境(如C4ISR系统,以下内容皆以之为例):它在局域网中是C/S架构的,服务节点是由两台或两台以上服务器组成,另外还有数十个客户节点,交叉属于多个多播组;每个节点上运行了多个进程,都通过网络通讯服务进程NS进行数据通讯;服务节点双机互为热备份,主服务节点主要通过多播方式将信息发布到各客户节点组,备服务节点不向外发布信息,网络环境拓扑图见图1,每个节点可属于多个节点多播组,但是是不定的,即每个节点要根据登陆的席位来确定加入的多播组;服务节点发布的不同信息的可靠性等级是不同的,有的要求必须收到,有的则可丢失;服务节点发布的信息是有时序性要求的,不能乱序,且信息还具有时效性,过了有效期,则必须丢弃……,针对这样的特殊需求,设计了新的可靠多播协议:简单弹性可靠多播协议—SFRM(Simple Flexible Reliable Multicast)协议。

1.1 SFRM协议格式

SFRM协议是基于NACK方式的,协议的首部为4个字节(见图2),各字段含义如下:

GroupID:组序号,占一个字节,0-127。

MessageID:消息的序号,占一个字节,0—127,顺序循环使用,即当序号达到127时,下一个序号则为0。

NA0—NA6:重发属性NA位,指示了离此报文最近的7份报文是否还能够重发,0表示不能重发,1表示该报文能进行重发。设当前报文MessageID为N,则NA0—NA7指示了最近的MessageID为N,N-1,N-2,…,N-7的报文是否能够重发。

RT:重发位,指示了当前报文是第一次发送的报文还是重发的报文。

ATime:报文存活有效时间,单位为s。1—7分别表示1—7 s,0表示此位无效,不予考虑存活有效时间。

Count:指示了该报文的所包含的数据包个数,0—31分别表示数据包个数1—32。

注:Message部分包含消息长度(2字节)与消息正文两部分。

1.2 SFRM多播处理过程

主服务节点NS为每个多播分组准备两个队列:发送缓冲队列与重发缓冲队列(重发缓冲队列可固定设置为存储128条最新报文),NS依次从发送缓冲队列中取出数据,添加SFRM协议首部,重点要设置好NA指示位,将报文多播到目的多播组,然后将该报文加入到重发缓冲队列中。

多播客户节点NS收到了一条多播报文,通过MessageID可检测到是否有报文丢失,如果没有丢失就直接送给对应的应用;如果有丢失,则检查丢失的对应Message的NA指示位,如果为0,则表示丢失的报文已过期或超过了最大的发送次数;如果为1,则可以以单播方式向主服务节点发送该报文的NACK,请求重发。等到报文都收齐或确认之前丢弃的报文不能再重发(包括失效与达到最大重发次数两种可能)了,再依次将接收缓冲队列中的报文发给目的应用。

主服务节点NS如果收到了NACK,从重发缓冲队列中找到该报文,且该报文未过期或未超过其可靠性等级规定的最大重发次数,则修改首部的RT位为1,重发该报文。

在以上的多播处理过程中,多播客户节点发送NACK应注意要适当“放缓节奏”,否则很可能引起“NACK风暴”。可使用如下处理:当多播客户节点检测到有报文丢失并确认该报文还能够重发时,应随机等待一个时间,如生成一个1—36之间的随机数T,等待Tms后,发送NACK,如果在一个RTT(链路往返时间)内,还不能收到,则可再次发送,直至达到6次或从后继报文的NA指示位得知其已不能再重发;主服务节点NS如果收到了NACK,暂停新报文的发送,立刻重发该报文(如果可以),如果在一个RTT内再次收到该报文的NACK,则应该丢弃NACK,不做响应。

1.3 打包策略

一条应用数据发送到另一个节点,大致经过以下几个步骤:添加SFRM协议的首部,添加IP的首部(其中包括添加IGMP首部),添加以太网首部跟尾部,然后从网络上发送,到达目的节点后,再进行之前的反向去首部操作。在此前半过程中传输的数据逐层长度不断加长,到目的节点后又逐层减少,其网络上传送数据帧的长度为DataLen(应用数据长度)+4(AHeadLen应用协议首部长度)+46(IP首部+IGMP首部+以太网首部及尾部长度)。整个过程中,消耗的CPU主要集中在封装与反封装数据上,而传送过程中,由于封装的结果,要额外发送50字节的数据,如果应用传送的是大量的只有几十个字节的短报文,显而易见传送效率不高,可采取适当措施来充分提高发送的效率,打包策略就是一个行之有效的措施。

打包策略很简单,主要就是把数个欲发送的报文数据打包成一个大的数据包发送,但必须遵循如下几条规则:

(1)单包数据长度大于1 450的无需打包;

(2)打包后的数据包总长度要小于1 500(MTU)-4-46=1450;

(3)打包后的数据包最多含有32个小数据包;

(4)打包后的数据包的可靠性等级应大于等于其包含的任意数据包的可靠性等级,并应随着打包数据条数的增长而增长,直至达到最大可靠性等级;

(5)打包后的数据包的有效时间应等于其包含的任意数据包的最小有效时间。

下面来分析一下打包策略的效率。例如有100条短报文要发送,其平均长度为50字节,按逐条发送来计算:逐层封装后,发向网络时,数据长度变成了100字节,然后再逐层去封装,最终将数据送给目的应用,设此过程中,在源端消耗的CPU为U,在目端消耗的CPU大致也为U,每100字节网络传送时间为t,则传送100条数据总花费的CPU为200U,网络传送时间为100 t,实际通过网络传送的数据为10 000字节。下面看看采取打包策略后的情况:每次封装能传送(1500-50)/50=29个数据包,所以只要发送4次即可(每次发送的数据包个数分别为29,29,29,13),每次发送所消耗的CPU应大于2U(主要有一个数据打包的过程),但应小于4U,即消耗的总CPU应小于16U,传送的总时间为15t+15t+15t+7t=53t,实际从网络传送的数据为5 200字节。从这些数据可看出,打包的效率要大大优于逐条发送的效率,且占用网络总资源要少,网络资源利用率高。再看看误码情况,设网络传输的误码率为E,则逐条发送时发送有效数据的误码率为10 000/5 000=2E,在打包情况下发送有效数据的误码率为5 200/5 000=1.04E,可见打包方式发送数据时,误码率要远低于逐条发送方式。

1.4 插播机制

文中的多播应用方式不同与视频传送类的多播应用方式,数据的发送频率是不固定的,某段时间内可能有大量数据要发送,而另一段时间内,可能又没有数据要发送,即数据的发送并不是连续稳定的。多播组中的节点如果没有收到某条多播数据,在下一条多播数据接收到之前,是不知道也不可能发送NACK给源端的,如果等待后继多播数据的时间大于之前丢失的多播数据的有效时间,则肯定就丢失了之前未收到的多播数据。这里引入了插播机制来解决这一问题。

插播机制就是在多播组发送的空闲期人为地插入一条多播报文,从而能够使多播组的成员尽快知悉在这之前是否有报文丢失而发送NACK给主服务节点,请求重发。插播报文的可靠性等级应设为0,其有效时间也应设为0,因为只是起到了维护的作用,无需交给应用处理。另外插播的时间间隔选择也很重要,太短了,增加了CPU及网络负担,太长又不能很好起到维护效果,根据实践经验可以设为6倍的RTT。

1.5 服务节点主备切换处理

当服务节点进行主备切换,即服务备节点变成主节点,而主节点变为备节点或故障宕机了,此时,服务主节点发布的多播数据的MessageID与之前的服务主节点的MessageID存在跳变,应将这样的处理简单化,新主服务节点发布的第一个MessageID应从0开始编号,客户多播组成员节点接收到该报文发现源端改变时,应立即将接收缓冲区的报文送给相应的应用,停止发送NACK,开始适应接收处理新的源端的多播数据。

2 实验

SFRM协议逻辑清晰,实现简单,将按SFRM协议实现的多播程序NS应用到工程中替换原NS服务,使指控系统逐渐运行在满负荷状态下,连续运行较长时间后,情况良好。所示应用新老NS服务的系统运行对比如表1所示。

双机热备运行于满负荷情况下,进行人工的主备切换,新老NS服务的运行情况对比如表2所示(注:此种情况下,主备切换立刻可完成):

双机热备运行于满负荷情况下,模拟主机故障突然宕机,备机自动升为主机,新老NS服务的运行情况对比如表3所示(注:此种情况下,备机升为主机需要有探测时间,此过程中会有大量丢点):

由上述的实验对比可看出,按SFRM协议实现的多播通讯能完全适应工程需求,效率良好。

3 结束语

对于工程来说,一个新的协议或技术,不是追求最好最完美,只要能很好地满足工程需求,实现简单,有很高的稳定性,能提升效率,那么对这个工程来说,它就是实用的。SFRM协议思路清晰,能弹性的设定报文的可靠性等级,满足工程对不同报文的不同可靠性要求;通过设计MessageID与NA指示位及引入插播机制,使接收节点尽快地检测到报文的丢失而发送NACK,并确保报文有序的传送。另一方面,发送NACK的延时机制又较好地抑制了“NACK风暴”;通过数据打包发送策略,提高了效率及资源的利用率。SFRM协议针对这类C/S架构,基于双机热备的系统来说是完全适用的,如果稍加改变,对于其他类型的应用也是适用的。

参考文献

[1]Gemmell J,Leibeherr J,Bassett D.In Search of an API fors calable reliable multicast[R].M SR2TR297217,MicrosoftR esearch,1997

[2]Comer D.Internetworking with TCP/IP Volume I:Principles,P rotocols,and Architecture[M]3rded.Prentice Hall Inc,1995

[3]桂超.基于Internet的可靠多播传输协议[J].计算机工程与设计,2006,27(2):208-210

[4]Towsley D,Kurose J,Pingali S.A comparison of sender-initi a ted and receiver-initiated reliable multicast protocols[J].I EEE Journal on Selected Areas in Communications,1997,15(3):398-406

[5]Schuba M,Reichl P.An analysis of retransmission strategiesf or reliable multicast protocols[C]//Lund,Sweden:Proc Interna t ional Conference on Performance of Information and Communi c ation Systems PICS’98.1998

[6]S Kasera K.Scalable fair reliable multicast using active servic e s[C]//IEEE Network,Special Issue on Multicast,2000-01/02

[7]Nonnenmacher J,Jung M,Biersack E W,et al.How bad is re l iable multicast without local recovery[R].Proc of INFOCOM’98.San Francisco:[s.n.],1998

[8]Floyd S,Jacobson V,McCanne S,et al.A reliable multicastf ramework for lightweight sessions and application-level fram i ng[J].IEEE/ACM Trans Networking,1997,5(6):784-803

[9]Richard W Stevens TCP/IP协议详解(卷1)[M].北京:机械工业出版社,2007

[10]裴云彰,刘艳,桂超等.全局有序的可靠多播协议[J].清华大学学报:自然科学版,2001,41(1):53-56

[11]马卫东,李幼平.数据分发软件设计方法[J].计算机应用,2005,25(4):913-914,918

上一篇:形式能力下一篇:情态语言