运维管理及标准

2024-08-18

运维管理及标准(精选6篇)

运维管理及标准 第1篇

运维管理标准

概述

运维是管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于运维部门内部日常运营管理,涉及的对象分成两大部分,即业务系统和运维人员。其管理内容又可细分为七个子系统:

第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;

第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复; 第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理 第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

第一章 总则

1.为加强公司各个项目后期的系统运维管理,确保系统能够平稳、可靠地运行,更好地为客户提供管理服务,特制定本规定。

2.实行预防性维护为主、故障性维护为辅的运行维护管理原则,预防性维护和故障性维护都应遵循事先设计好的程序进行。

3.完善运维管理体系,建立健全运维规范,提高运维管理效率,并不断提高运维质量。

4.本规定适用所有进入运维环节的项目。

5.运维人员应根据授权,处理本规定中所涉及的业务事项。

第二章 主机、服务器及数据库系统的运维管理

1.根据应用需求,主机、服务器及数据库系统的配备和安装、以及系统资源的使用等由公司项目实施部统一规划。

2.应指定专人作为系统管理员(系统工程师)和数据库管理员,对系统的运行、管理、维护和安全负责,并按照有关规定负责系统和数据的备份与恢复。3.系统/数据库管理员应定时对系统进行监控和定期的健康性检查,分析系统运行和资源使用状况,并进行必要的优化、调整和修正,及时消除隐患。如系统设置发生变化,或重新安装系统,或安装了新软件,应在此后15个工作日内对系统进行密切跟踪。

4.及时解决处理系统运行过程中出现的异常问题和软硬件故障,并采取必要措施,最大限度地保护好系统资源和数据资源。

5.对于重大软硬件系统故障,应立即通知部门领导,协调服务商,使系统尽快得以恢复运行;对于应用系统引发的系统异常或故障,应及时通知相关人员,并协同解决处理。

6.每季度应对系统主机/服务器/数据库进行一次停运维护,其操作必须严格按照操作规程进行。其他非正常性停运(故障引发的除外),应提出书面申请,并经部门领导批准后方可进行。同时做好相应的准备工作,最大限度地减少对业务操作带来的影响。

7.具有系统操作或管理权限的人员调离工作岗位或离职,应立即从系统中删除该用户;如该人员掌握超级用户口令,应立即更换口令。

第三章 软件系统的运维管理

1.避免在用户工作时间进行软件版本升级工作,以免由于人为失误造成业务中断。2.软件系统的安装、升级等操作应保留完整的实施记录。

3.对软件系统进行升级、更新补丁,应首先进行相关的测试,并在确认无误后实施。

4.对软件系统进行升级、更新补丁,或进行系统的重新安装等操作,应在实施前对原有系统及数据进行备份。

5.变更系统配置,修改配置文件、参数文件时,应对原始配置数据(或文件)进行保留。

6.软件进行版本升级时,对于不影响业务的升级工作,须以书面形式详细将计划、方案、措施等报上级主管部门备案;对于影响业务的升级工作,必须提前两周向上级通信主管部门以书面形式提出申请详细报告计划、方案、措施等,经批准后方可实施。

7.维护人员应定期跟踪所使用系统的软件升级情况和升级后的新功能,必要时提出升级建议。

第四章 数据库的运维管理

1.对于数据库的变更必须有记录,可以回滚。2.无用表和字段要及时清理。

3.从数据库删除数据一定要先备份再删除。

4.定期对数据库数据进行自动备份,以便在故障发生后尽快恢复最新的数据。定期检查备份的执行情况,确保备份操作正确执行。5.指定专人定期进行备份数据的恢复性试验。

1、严格操作原则:在系统上进行可能影响系统运行的参数设置、更改和维护等操作时,须有2人以上在场进行监护和确认,并作好详细的操作记录;

2、提前沟通确认原则:软件进行版本升级时,对于不影响业务的升级工作,必须提前与客户方进行沟通,避免操作中人为失误造成业务中断;对于影响业务的升级工作,须提前与客户方进行确认,达成一致后方可实施。

3、遵守保密原则:对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。

第五章 巡检管理

定期了解设备的运转情况,做好系统日常运行的基础数据记录,做到有问题早发现、早解决,避免隐患,确保设备的完好率,保证系统运行质量。

1.对硬件设备进行定期巡检,是确保系统稳定运行的重要措施,巡检工作包括例

行巡检、节假日和重要事件前的巡检

2.维护人员应根据工作计划,对维护的设备定期进行预防性巡视检查,巡查过程中应认真负责,及时发现问题,重点注意处在恶劣环境下、存在潜在质量故障的设备,巡查要认真做记录。

3.巡检过程中发现告警应立即进入处理流程,判定为故障的要立即进入故障处理流程

4.所有的巡检都应有详细的记录,包括时间、巡检情况和责任人,并应在巡检纪录卡上签字。

第六章 网络管理规范

 关键业务流程

对以下业务系统流程监控,对业务系统是否正常运行、各项具体参数指标是否超标等进行掌控,避免或降低业务系统故障的发生率。

1、单位内部的关键业务流程。

2、网络吞吐量大的业务流程。

3、对系统造成大的压力,频繁使用数据库的业务流程

4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。 用户体验同系统性能指标相关联

将网络中的所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,收集网络运行信息,将性能数据同单位内部用户的体验相结合来分析网络的性能状况,诊断系统瓶颈。

 建立网络运行基准指标并观察趋势

长期监测并通过对网络运行的观察,分析网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况,分析故障,达到预警的目的,防止更严重问题的发生。 设计报警策略,避免警报泛滥

配置报警的依据是根据信息服务管理网的网络运维管理目标,报警设置的原则:

1、对影响网络和业务的重要指标设置报警;

2、消除误报和重复报警;

3、报警应该以多种方式及时发送给相应的负责人。 创建自动化、规范化事件处理程序

信息服务网络运维,日常处理事务较多,需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且分配到相应的负责人,提高工作效率。另外可将工程师长期积累的知识和工作经验系统化和固化,达到快速定位故障的目的。

 网络服务质量SLA的量化管理 提高网络服务质量的设立量化指标,将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、带宽使用百分比、网络延时、CPU和MEMORY的负载,对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理的依据。

 制定网络的升级和改进策略

网络的升级和改进应该以对现有网络和系统性能数据的测量为前提,以对网络整体运行的现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据的比较、单一网络组件和其它网络组件的数据比较、系统负载量最大时的性能数据和一般负载时的性能数据的比较等,判断是否需要对系统的局部或者整体进行升级,发现网络系统性能的瓶颈,提出网络系统改进的方法。 日常规范

1.每天两次进行业务系统、网络运行状况、业务流量及对外服务器服务状况监控巡查;

2.按照规定的时段巡统计并汇总运维表单。(流量统计、事件统计、问题统计、手里投诉统计等)按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占用率等,重点检测关键设施,并记录;

3.处理产品组网络问题应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复;

4.对网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层等核心网络运维的调试,做好汇报申请并记录。

5.故障分析及处理,网络拓扑更新及网络优化。网络安全方案实施部署,更新维护录入知识库。

6.处理各种网络故障,并作记录,保障网络正常运行。7.遇到不能处理的问题时,通知相关人员或及时汇报,并记录;

8.工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。

第七章 请示报告制度

为加强相关信息处理和反馈管理,有效的控制系统和设备的运行状态,通过规范的请示报告流程,提高运行维护的管理效率。

例行性请示报告

1.按照规程和制度规定的周报、月报、季报和年报。2.系统升级、交接和重大数据变更请示报告。3.各类专项请示报告和合理化建议。紧急性请示报告

1.各种事故、严重设备故障、严重电路故障、系统运行异常等情况。2.各项工作中发现的严重泄密、安全性事故报告 3.客户要求的其他紧急性报告。

运维管理及标准 第2篇

郑州向心力通信技术股份有限公司

二零一八年 1 机房运维管理前期准备 1.1 管理目标

机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。1.2 参与数据中心建设过程

机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。1.2.1 应参与规划设计

机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。1.2.2 应参与相关供应商遴选

机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。1.2.3 应参与建造管理

机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。1.3 测试验证

机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。1.3.1 时间和预算

机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。1.3.2 测试验证参与方

项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。

机房关键设备提供商及工程总包商,应积极配合测试验证工作,应在供应商合同中对此项有明确要求。1.3.3 测试验证内容

验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。

测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。

1.3.4 设施健康评估

当接手已在运行的机房基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。1.4 技术文档

完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从施工单位得到场地基础设施的全套相关文档,包括但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。1.5 管理边界

为了明确管理责任,机房基础设施运维团队应将可能影响机房基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。安全管理和质量管理建议 2.1 人员安全

机房基础设施运维团队要编制正式的机房生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保机房运维人员的人身安全。相关安全生产规范主要包括:

●机房生产环境安全管理规范; ●机房基础设施各系统安全管理手册; ●机房基础设施涉及安全的应急预案; ●机房基础设施管理过程涉及的技术方案中的安全管理策略。机房基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。

相关国家、行业规程包括但不限于:

●GB 26860电力安全工作规程 发电厂和变电站电气部分; ●DL 408 电业安全工作规程。2.2 物理环境安全

应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。

应了解机房所在地的历史自然灾害情况。包含但不限于GB50174 及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。

应建立并执行严格的机房设备、人员、车辆进出管理制度。应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。2.3 质量管理

在机房基础设施运维过程中建立完善的质量管理体系,是保障以上机房基础设施运维趋于卓越的重要因素和手段。机房基础设施运维团队的所有关键工作应包括以下的质量管理要素: 2.3.1 质量保证

●过程制定; ●程序制定; ●过程审核和批准; ●过程和程序培训。2.3.2 质量控制

●事件回顾; ●质量检查和检验; ●定期质量审核。2.3.3 质量改进

●故障分析; ●经验教训; ●优化及创新计划。人员管理建议 3.1 组织及人员 3.1.1 组织架构

机房运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:

●运维巡检团队

主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。

●技术管理团队

主要职责:对机房基础设施提供运维技术支持,解决技术问题,承担机房基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。

● 物理环境安全管理团队

主要职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2 人员配制

机房基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的机房,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。

高等级以及具有一定规模的机房,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。

运维团队的关键岗位应有人员备份和储备。机房基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。3.1.3 绩效管理

为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护机房基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。3.1.4 人员管理制度

为了保障机房基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于):

●《日常活动管理制度》; ●《人员安全操作制度》;

●《运维人员基本素质养成管理制度》; ●《安全运行奖惩制度》; ●《节能运行奖惩制度》; ●《技术创新奖励制度》; ●《人员晋升制度》; ●《人才储备制度》; 3.2 培训及认证

3.2.1 员工培训及资格认证计划

对于机房基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括机房基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。

对于所有运维人员宜设定以知识更新、技能提高为目标的培训及认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。

可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。3.2.2 历史事件分析学习

运维团队应将机房基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相同的事件再次发生。3.2.3 组织学习

运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。3.3 运维外包服务商

3.3.1 基础设施运维外包服务商的选择

机房基础设施属于关键性设施,选择外包运维团队时应考察其机房基础设施的运维服务的资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应要求外包运维机构针对机房基础设施设施部分设立专门的有机房基础设施运维经验的团队,并严格按机房基础设施的运维规程规范执行。3.3.2 运维外包服务商的管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。

外包服务商需要严格遵循数机房基础设施既定的操作流程和安全守则。

机房基础设施运维管理的最终责任承担者是机房管理者,责任无法外包。因此,机房应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。设施管理建议 4.1 资产数据库

数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

资产数据库应最少包括以下信息: 资产ID:每个资产的唯一标识号

种 类:一级分类(如电气、制冷、消防系统)子 类:二级分类(如 UPS、电池、PDU等)描 述:资产的文字说明 制 造:资产的制造厂家 型 号:制造厂家的产品型号 规 格:资产的规格或者标称值 位 置:位置 ID(房间或区域)购 买 人:资产维护的负责人 序 列 号:制造厂家的序列号 安装日期:资产的投产日期 保修期限:保修到期的日期 更 换:预计的资产更换日期 维护频次:年检、季检、月检等 4.2 预防性维护 4.2.1 预防性维护计划

预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。

运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。预防性维护包括并不限于以下系统设备或内容: ●冷水机组、精密空调; ●UPS,开关、和发电机组; ●消防系统和监控系统检验; ●蓄电池放电测试;

●配电装置(高低压配电装置)的绝缘性定期试验; ●二次保护定值实验;

●每年雨季之前进行的数据中心防雷接地装置测试等。4.2.2 工单管理

运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。

计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。4.3 操作流程

机房基础设施的所有操作,均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。4.3.1 维护作业程序MOP 对机房关键基础设施设备的每次维护、维修、安装操作,都应事先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。4.3.2 标准操作流程SOP 所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。4.3.3 应急操作流程EOP 应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子:

●一路市电供电时中断; ●双路市电供电时同时中断; ●单个精密空调时故障停机; ●全部精密空调都故障停机; ●单台UPS时故障停机。4.4 工具及备件管理

运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。

测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。

应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。4.5 供应商管理

应该按照机房基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。

所有供应商到达机房执行维护程序之前,应通过机房相关规程的培训,获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。

供应商的每次机房维护活动都应该提交现场服务报告并存档。运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(SLA)、工作范围、针对设施的培训和认证情况等信息。4.6 生命周期管理

应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的计划及预算,及时报告给运维管理部门。

风险评估主要评估内容包括: ●资产重要性识别; ●资产威胁识别; ●资产脆弱性识别; ●风险值的计算;

●在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析;

●对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。

4.7 运维管理系统 机房可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。运行管理建议 5.1 运行管理制度

机房基础设施运维团队应建立并严格执行运行管理制度,包括:5.1.1 巡检相关管理制度

●日常巡视巡检管理制度; ●值班管理制度; ●交接班管理制度; ●通知矩阵。

5.1.2 工作流程相关管理制度

●工单处理流程; ●例会制度;

●工作总结报告制度(日、周、月、季、年总结报告);●交付管理规范;

●运维质量管理办法文档管理制度; ●工具备件管理制度。5.1.3 安全相关管理制度

●机房出入管理制度; ●机房现场管理制度;

●机房卫生管理制度; ●信息安全相关管理制度。5.1.4 故障处理管理制度

●设备操作管理制度; ●设备故障处理流程; ●应急准备和应急响应流程; ●维护作业计划管理制度; ●故障隐患跟踪反馈管理制度; ●紧急事件汇报流程。5.1.5 经营相关管理制度

●员工行为规范; ●考勤管理制度; ●人员管理考核制度。

5.2 设施监控、巡检、及交接班管理

应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。

应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。

运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。5.3 机房清洁管理

应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。5.4 标签标识管理

应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括:

●设备标识:包括设备名称、型号、编号、资产编号等; ●线缆标识:包括起始端信息、终止端信息、设备名称等; ●警示标识:如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等;

●物理环境标识:如位置标识、区域标识等;

●系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。5.5 变更管理

任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。5.6 事件管理

应制定事件管理流程,明确不同等级事件下相应的处理流程。5.6.1 事件等级定义

一般事件:任何没有达到机房设计和运行标准的异常事件; 严重事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断的事件;

重大事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。5.6.2 事件升级

当事件暂时无法排除,需要逐级报告,进入事件升级流程。如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。

5.7 应急响应

5.7.1 设施应急预案演练

运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括:

●沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;

●跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。

应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。5.7.2 人员安全应急流程

机房基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。5.8 容量管理

容量管理可包括但不限于以下方面: 5.8.1 空间容量

●IT设备摆放空间; ●基础设备设施摆放空间; ●综合布线线路空间,配线架管理。5.8.2 能力容量

●电力供应容量; ●空调供应容量; ●综合布线信息点容量; ●互联网接入容量。

设施运维团队应与IT 部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。

当机房基础设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建机房的计划。5.9 能效管理 5.9.1 能效监测

机房基础设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率 PUE 的变化情况,从中发现趋势,以不断优化运行方案。5.9.2 了解IT设备运行特征 机房基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解IT 设备的运行峰谷期。

应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。5.9.3 管理气流组织

应封堵设施建筑所有可能的漏风口,维持设施的正压。应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。

5.9.4 运行阈值设定

应基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。5.10 预算管理

运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。

预算应包括但不限于以下内容: ●基于SLA的人力预算; ●备件及工具、仪器采购费用; ●应急维护材料费用;

运维工时标准化管理应用实践 第3篇

联通系统集成有限公司业务系统中心(下称“中心”)负责集团信息化系统的维护支撑工作,向集团客户提供代维服务。借鉴ITSM(IT服务管理)制定的维护作业计划可记录基础维护工作,但主要是既定计划的检查类工作,而定期重启、微码升级等既定计划的优化类工作和重保、变更、硬件更换等非既定计划的临时性工作均未包含在维护作业计划中。这些非作业计划内的工作占用工时较多,且对维护人员技术能力要求更高,不同水平的维护人员完成的时效和质量也不同。各个小组之间独立管理,对外提供的服务标准不统一。

随着IT运维的发展,提供统一、标准的服务势在必行,中心内部2015年对运维工作进行精细化管理,优化工时记录模式,采用工单与工时结合的方式,将工作与实际维护人员对应,将质量管理量化、具体到人员和工作项目。通过建立数据资料分析库,校准工时模型、提升维护工作质量,实现降本增效的目的。

2 总体思路

2.1 问题分析

标准是一种约束,目的是为了寻求一致,实施标准化有利于实现科学管理和提高管理效率,可以使资源合理利用。对中心工作实施标准化,可以提供同质化的服务,提升客户感知和认同度,同时在团队内实现标准化,有利于提升维护人员积极性,提高团队凝聚力。

对目前工作进行分析,发现存在如下标准不统一的问题:

(1)维护作业计划中工时界定标准不一致,各个维护小组之间工时定义不统一,导致同一项检查项目工时不一致,且维护作业计划未包括所有既定计划的维护工作项目。

(2)临时性、非既定计划内的工作无工时记录,无法完全统计维护人员工作量,无法衡量维护人员的工作饱和度,在后续新增维护工作时无法进行人员调配。

(3)系统负责人数量较多,虽有统一的管理制度,但在对外提供服务时缺乏统一的标准。

(4)各小组各自为政,组内人员负责自己范围内的系统,对其他系统的情况不了解。在一个系统工作任务重时,其他维护人员即使当时工作量很少也无法协助,造成人员浪费。

2.2 实施思路

针对上述问题,调整工时记录规范,增加非例行工作项目,制定系统负责人服务支撑规范,对维护人员进行技术培训,具体措施包括以下三部分。

(1)工时精细化:所有工作项目全部记录工时,有既定计划的工作全部列入维护作业计划,非既定计划的工作通过手工工单方式记录。对所有工作的工时统计方式进行规范,保证基础数据准确。

(2)服务标准化:对系统负责人进行规范化培训,对外提供同质化服务;对维护人员进行技术培训和考核,根据技术能力高低,分成一线、二线、三线三个层次进行支撑,每个层次设置支撑规范。

(3)支撑标准化:打通四个维护小组各自维护的壁垒,由以系统为单位的模式,转变成以属地为单位的模式,维护人员分级分岗横向支撑。

3 实施措施

3.1 工时精细化

工时精细化是降本增效的基础,只有工时统计标准统一,才能分析可调配资源,为人员优化提供依据。

3.1.1 维护作业计划工时

维护作业计划中大部分工作项目为检查类工作,在维护预算中占比极低,而且有被监控系统替代的可能。针对此状况,减少并标准化检查类工作,将维护作业计划内的项目逐条核对,制定工作项标准工时。检查项目按照设备类型和设备数量进行重新计算,保证所有小组的工时计算都是统一标准化的。

作业计划中缺少一些占用大量工时、但未列到计划中的内容。对于此部分工作,在维护作业计划中增加有既定计划的优化类工作,如定期重启、系统调优、微码升级、双机切换等,以及各种响应支撑报告。所有系统统一标准,逐条核对,避免出现同一工作项有的系统认为是既定计划工作,有的系统认为是临时性工作的情况。

在规范维护作业计划工时的同时,调整维护人员从事检查工作的占比,并通过培训和自动工具的推广,将检查类工作标准化,提升劳动效率。

3.1.2 手工工单工时

决定实施标准化工作以后,中心从实际工作出发,采用手工工单方式记录维护作业计划中未统计到的工时,保证所有工作均有工作记录和工时统计。

临时性工作由集团客户或中心负责人派发给系统负责人,系统负责人再派发给维护人员或自行完成,为了进行工作记录,要求系统负责人将工作要求通过邮件进行派发,维护人员完成后将完成时间、结果等通过邮件反馈系统负责人,系统负责人对邮件派发的工作和自行完成的工作进行手工统计,简称手工工单。

手工工单是在本次工作中首创的,并无先例可寻。在实施的过程中广泛听取了各系统负责人的意见,对记录内容多次进行调整、完善。对手工工单中记录的工时也进行规范,按照实际实施时间统计,工作项目和工时由中心负责人进行审核,避免出现虚假工作和工时。在手工工单实施半年以后,根据统计数据,逐步设定标准工时,迫切要求工作效率低的维护人员提升技术能力,提高工作效率。对工作效率高的维护人员考虑提岗以起到骨干作用。

3.2 责任标准化

中心将系统负责人承担的服务责任标准化。原有的系统负责人人数较多,水平有高有低,各项工作开展标准不一致,因此中心从各属地选出2名优秀的系统负责人,将属地所有的系统负责人的职责进行集中,同时2名系统负责人进行工作互备。

中心制定针对系统负责人的分阶段培养计划,由中心负责人直接负责,按计划制定服务标准并进行工作培训,制定考核措施,将服务责任落实。后期维护工作的质量通过系统负责人对维护人员的培训及管理得到落实。在系统负责人培养阶段,设定不同的场景,由系统负责人分别讲述提供服务的方式、方法,保证提供服务的一致性。

3.3 代维标准化

在调整前,中心内各小组均设置一定数量的系统负责人,系统负责人和维护人员均以系统为单位纵向支撑,支撑架构见图1。

中心内部对维护人员进行工作流程、工作方法的培训,将管理制度细化到具体工作步骤中,将代维服务标准化。对维护人员进行技术考核,根据考核结果,将维护团队进行人员分层(一线现场工程师、二线专业工程师及专家、技术专家、系统负责人),系统负责人以系统为单位纵向支撑(扩大了支撑系统数量),维护人员以技术为单位横向支撑,系统负责人和维护人员在工作上形成交叉形态。一线现场工程师,主要负责维护作业计划内的检查类工作和手工工单中的简单实施类工作;二线专业工程师,负责变更方案的编写、重要变更的实施等技术含量稍高的技术性工作;技术专家,配合系统负责人从技术角度开展系统优化、隐患排查、技术培训、疑难问题处理等技术要求很高的工作;系统负责人,掌握系统的核心信息,负责与客户沟通、协调,承担项目经理角色,保证系统稳定和客户满意。

调整后支撑架构见图2。

经过此番调整,人员工时实现合理利用,所有人员达到同样的工作饱和度。

4 效果验证

通过调整,对系统负责人进行了精简,系统负责人数量减少了43%;通过对系统负责人的培训,维护服务规范更加统一,服务质量有所提升,客户满意度也有所提高。

对工时进行规范统计之后,对半年的数据进行分析发现,维护人员之间工作量差距较大,部分人员工作量严重不饱和。可以考虑从现有维护人员中调配出人员开展其他工作。经过维护人员的技术考核和分层管理,对部分人员的岗位进行了调整。

经过综合调整,包括岗位薪酬调整和人员调离维护岗位调整,2015年度中、高岗各减少了2人支出。节约了成本,提高了服务效率。

5 结语

在新的IT运维大环境下,以工时统计为起点,通过对系统负责人的调整,建立分层服务支撑体系,在对维护工时进行统计分析的基础上,对人员进行合理调配。

标准化管理已经初见成效,也得到了维护人员的认可,但目前仍存在一些问题,比如工时数据通过纯手工统计,无系统支撑,造成个别数据不准确;个别工作很难制定标准工时;不同系统存在客户管理要求的差异等,需要进行不断的完善。

对于维护工作的标准化管理,不仅能够有效指导工作、进行人员合理配置、缩减人工成本,同时也能提高工作效率。与此同时,也对提高客户感知度起到了关键性作用。此管理模式值得进一步完善和推广。

参考文献

运维管理及标准 第4篇

宏观经济管理信息系统(金宏工程)是我国电子政务一期工程十二大业务系统之一,由国家发改委、财政部、商务部、人民银行、国资委、海关总署、国家统计局和外汇管理局共同承担建设。金宏工程共规划建设八个业务系统,十个共享数据库,为国家宏观经济管理部门及时、准确、全面获取宏观经济信息,实现信息资源共享,提高工作效率和质量,增强管理与决策的协调性提供强大技术支持。目前该工程已处于项目终验阶段,很快要投入运行。

从现状来看,我国电子政务系统长期存在“重建设、轻维护”、“重技术、轻管理”等现象;对运维服务外包商的管理缺乏有效的手段,处于粗放管理的状态,日常运维工作常处于“救火”状态。因此,在金宏工程运维中引入运维服务管理标准,使运维工作更加科学化、规范化和专业化,是“用好”金宏工程的重要保证。

一、运维服务管理标准ITIL

运维服务管理是金宏工程的重要组成部分,其管理内容多、实施时间长、管理环节繁琐,因此具有良好效果和效率的运维服务管理标准对于金宏工程的成功运用至关重要。国外有关政府机构对电子政务系统的运维已进行了多年有益的探索,并制定了一系列运维服务管理标准,其中最成熟和最有效率的运维服务管理标准当属ITIL。

ITIL是英国商务部OGC收集和分析政府各种组织机构有效解决IT运维服务管理问题方面的信息,找出那些对政府部门的有益做法,集合形成的IT服务管理最佳实践框架。自1980年至今,ITIL经历了三个版本:

Versionl1986-1999年原始版,主要基于部门非职能型实践,开发了40多卷技术指导图书。

Version21999-2006年v2版,主要基于系统的流程型实践,共有10本技术指导图书。其核心主体框架主要包括:业务管理、服务管理、IT基础架构管理、应用管理、IT服务管理实施规划和安全管理等6个模块。

Version32004-2007年v3版,整合v1和v2的精华,融入IT服务管理领域当前最新和最佳的实践,尤其是引入“生命周期”概念,开发了5本基于生命周期技术的指导图书,形成了ITILv3的核心。

总之,1TIL来源于实践又用于指导实践。它列出了各个IT服务管理流程的“最佳”目标、活动、输入和输出以及各个流程之间的关系,保证各流程实现其应有的功能并与其它流程相协调。至于具体如何实现这些功能,可根据实际需要采取不同的组织方式。这近似于“基于组件编程”思想:各流程相对独立实现某些特定功能,流程之间及流程和业务之间的接口根据业务和IT管理方面的需要事先设计好。可方便地增加或放弃某个流程,同时其它流程还可继续保持运营。

二、金宏工程的运维管理模型

结合传统的IT运维实施经验,和国际流行的运维服务管理概念及实施经验,金宏工程应考虑多部委共同参与的特点,遵照ITIL标准对运维服务中的人员、技术、流程3大要素进行组织、控制,来提出有效的运维管理体系架构(即运维管理模型)。ITIL标准中的“人员”指进行IT运维所必须采用的组织结构形式;“流程”指IT运维的各种业务过程;“技术”指IT运维服务应采用的各种技术手段。三者构成一个有机整体,缺一不可。

(一)组织模型

金宏工程的用户包括8个共建部委,包括宏观经济数据共享的信息平台和各部委自己的子项工程,工程和业务涉及面广,在运维上还很可能出现认识不统一、模式不确定等问题或困难。因此,系统成功运维的关键不仅在技术,更在于协调。另外,保密和安全也是金宏工程的重点。根据金宏工程上述特点,其运维的组织结构设计如下:

金宏工程项目协调领导小组,对金宏工程进行战略规划和金宏系统运维管理进行决策;金宏工程领导小组办公室,对金宏系统运维管理进行指导协调,根据金宏工程项目协调领导小组做出的决策,将工作任务分解到数据服务主中心,通过各共建部门下达到各数据服务分中心,并监督和跟踪工作的进展;金宏工程安全保密办公室,对金宏工程涉及安全、保密、密码等方面的建设工作进行统筹管理和协调;各共建部门,组织共建部门用户和运维部门共同做好系统的信息共享、应用推广和技术服务工作;数据服务主中心,承担金宏系统信息共享平台的日常运维工作,及时将各分中心提供的共享数据载入信息共享平台,保障信息共享平台各项服务功能的实现;共建部门的数据服务分中心,主要负责各自系统的日常运行维护工作,并负责及时、准确地提供本部门的共享信息资源。

应该说明的是,金宏工程的很多应用都部署在各部委的纵网,所以对金宏工程各子项来说,运维人员不仅是部委信息中心的技术人员,还包括地方相关单位的信息技术人员。但金宏工程B/S结构的特点决定了运维的主要任务在服务器端,所以地方信息技术人员的任务相对少一些。

(二)流程模型

金宏系统运维的管理工作应立足于使数据服务主中心和各数据服务分中心的主要工作流程保持协调和一致,因此必须设定一个基于ITIL标准的金宏系统运行维护的基本流程,作为金宏系统运维的统一和基本的要求。在符合基本流程的前提下,各数据分中心可结合本单位实际情况建立其他适用的运维工作流程。这些数据服务分中心可同时归属于各部委信息中心基于ITIL标准建立的统一或集中的运维平台。

从纵向看,金宏工程运维的基本流程应包括服务支持流程和日常运维流程2大类。服务支持流程主要规范运维团队对顾客/用户提供支持服务;日常运维流程则是运维部门进行金宏系统正常运维管理所需执行的工作流程,如安全类维护、网络类维护、数据类维护、环境类维护等。

从横向看,金宏工程运维的基本流程应包括服务台工作流程、事件管理流程、应急响应服务、技术咨询服务流程、意见建议处理流程、日常运行维护、信息共享和完善性维护流程等八部分。

金宏工程的服务台设计为三线技术支持。首先,服务台在其能力和服务范围内为用户提供最初的支持(一线支持),并尽可能使事情处理完毕。如服务台无法处理,则由服务台将事情分配给本单位适当的运维部门。运维部门针对情况按工作流程进行处理,使事情得到解决(二线支持)。如果运维部门仍无法处理,由运维部门向供方(系统承建单位或供应商)提出要求,获得供方的支持(可称为三线支持)。

(三)技术模型

金宏工程包含10个共享数据库、信息共享平台,8个重点宏观经济管理业务应用系统、宏观经济辅助决策支持系统原型、过渡网等。

10个共享数据库包括:

国家财政预算收支共享数据库(财政部)、金融共享数据库(中国人行)、经济统计共享数据库(国家统计局)、外贸

进出口共享数据库(海关总署)、外经共享数据库(商务部等)、国际收支共享数据库(国家外汇局)、国有重点企业共享数据库(国资委)、重要商品价格共享数据库(国家发改委)、国民经济发展规划计划共享数据库(国家发改委)、经济文献共享库(国家发改委)。

8个重点业务系统包括:

国民经济和社会发展规划与计划系统、价格监管信息系统、固定资产投资项目管理信息系统、战略性资源信息系统、财政经济分析预测系统、金融运行分析信息系统、国际收支平衡管理信息系统、国有重点企业业务信息系统。

金宏工程是一十庞大、复杂的系统,运堆的技术手段可分5层框架:

(1)硬件设备:硬件设备包括网络设备、服务器、磁盘阵列等存储设备。

(2)操作系统:包括AIX、Sun等。

(3)平台软件:包括DB2数据库、金蝶应用服务器、WeblogicServer等。

(4)应用软件:业务应用软件。

(5)门户:金宏共享平台门户和各子项应用支撑平台的门户。

(6)监控软件:监控软件对网络、服务器、操作系统、数据库、应用软件等进行监控。

三、实施运维服务管理模型的关键问题

运维服务占整个金宏系统生命周期80%的时间。管好用好金宏系统离不开高效、经济的运维服务。上述基于ITIL标准的金宏系统运维服务管理模型的提出,为更好地实现金宏系统的运维服务提供了很好的理论依据和技术保障,同时也将为我国电子政务系统的运维管理进一步积累经验。当然上述模型本身还需经实践进一步检验,并在实践中逐步得到优化和改进。为更好地推进ITIL运维服务管理模型,建议:

一是国家有关部门要结合各自实际情况,把ITIL标准融入金宏工程运维服务管理中,以逐步形成具有我国特色的金宏工程运维服务管理规范和标准体系。

二是加大ITIL运维服务管理模型的宣传力度,扩大模型优越性和有效性的影响力。要让现有组织架构下的所有IT管理部门认识到实施ITIL标准并不需要重建组织机构及其职能。ITIL只是提供了一个指导性体系框架,这个框架既可以保留组织现有的IT管理方法和技术中的合理部分,同时还增加必要的方法和技术,以及方便和加强了各种IT职能部门间的沟通和协调。

三是从各部门不同状况出发,选取实施重点,量力而行,并逐步改善/提高各流程的效率。各共建部门不要一开始就试图同时实施运维服务支持和服务提供的所有流程,而以先从服务台、事件管理等最现实的流程做起,再逐步扩展到问题、配置、变更等其他流程,这是保证实施运维服务管理模型的正确途径和关键。

运维管理及标准 第5篇

CBSi中国•PChome 责编: 邹震 2009-11-02

摘要:ITIL 是IT 运维的事实标准,ITIL 的流程和原则通过规章制度的方式定义和实现,通常要借助工具软件帮助其落实,在国内,这些工具软件被统称为IT 运维管理平台。

随着信息化的不断发展,企业越来越多的依赖PC、LAN、服务器、防火墙等互联网技术,IT系统发展至今已经成为业务系统不可或缺的支撑基础,业务系统借助IT系统帮助企业更高效的服务于客户及市场,IT系统不单纯只是零散孤立的软硬件设备,为了更好的保障业务系统持续运行,IT应用系统已经上升到了IT服务管理层面。

IT服务存在的问题

在传统的IT管理模式下,缺乏适用的自动化管理流程,导致IT服务管理能力低下,从而使IT服务存在诸多问题:

* 传统监控方式过于分散,监控相互独立,故障的不能准确定位;

* 关键配置信息登记不完善,系统配置散乱在各种资料中,没有进行统一的管理; * IT资源管理混乱,领导层无法清晰了解资产的变更、使用等情况; * 系统升级变更后业务不稳定;

* 运维管理效率低下,相似问题屡屡发生,IT运维人员疲于奔命;

* 知识分散,信息中心过度依赖某个人,人员流失能影响故障解决速度; * 人员技能要求增高;员工工作考核无法量化,有的人很忙,有的人很闲; * 缺乏以客户为中心、以流程为导向,面向业务体验的运维模式„„ ITIL产生的效益分析

为了更好的让IT服务于用户,让运维人员不至于沿用“被动响应、救火队”的服务支持管理模式,英国CCTA(现OGC)于20世纪80年受英国政府的委托,组织开发了一套提高IT架构有效管理、经济使用支撑业务运行的IT资源的标准——ITIL,ITIL自诞生之初就引起了众多政府、企业的关注,企业、政府组织纷纷加入进来使用ITIL、雕琢ITIL,到如今,ITIL已经经历了V1、V2、V3三个版本的变迁,已经拥有了数万个政府、企业的用户,可以说ITIL已经成为了IT服务管理的最佳实践标准。

ITIL能够风靡全球,原因在于“以客户为中心,以流程为导向”,ITIL定位在面向终端用户,关注客户体验,为业务与技术搭建沟通的桥梁,确保政府、组织、企业的战略推动的实施。ITIL定义了企业IT系统计划、研发、实施到运维的最佳实现流程和管理原则。以下是应用ITIL可能产生的效益。

ITIL对用户的效益分析

1、ITIL是以客户为中心的,实施ITIL之后,用户的IT服务质量可以得到很大的提升,从而提高用户的客户满意度。

2、服务内容可以以客户的语言和更为恰当的详细程度得到更好的描述。

3、通过实施ITIL,可以对服务质量、可用性、可靠性和服务成本进行更好的管理。

4、通过实施ITIL,可以更好的让企业提升IT服务质量的改进,还可以对采纳基于ISO20000系类标准或BS 15000的质量管理体系提供支持。

5、ITIL为内部沟通和外部供应商沟通,以及程序的标准化和识别提供一个一致的参考框架。

ITIL对IT部门的效益分析

1、通过实施ITIL,IT部门可以全面监控网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源。

2、更加有利于IT部门对其负责的IT资源进行管理。

3、ITIL流程可以对日常运行维护工作(或外包作业)提供一个管理框架。

4、通过ITIL规范的服务台,可以建立一个更好的IT部门与业务部门沟通的平台。

但是,ITIL仅仅只是IT运维的事实标准,ITIL的流程和原则通过规章制度的方式定义和实现,通常要借助工具软件帮助其落实,在国内,这些工具软件被统称为IT运维管理平台。

IT运维管理平台是遵循ITIL理论,同时根据用户自身的特点而构建的,IT运维管理平台通过整合以往对网络、服务器与业务应用等IT基础设施的管理,通过基础监控平台提供的接口实行有效对接,帮助用户建立全面完整的、以业务价值为核心的基础监控和统一展现管理平台,为IT服务管理提供足够的管理元素,帮助管理者从不同角度、不同层面去了解系统运维状况,从而帮助用户实现对IT服务基础支撑系统的透彻管控。

广通信达科技有限公司总经理徐育毅认为,IT运维管理平台的作用从信息部门工作重点来讲,就是需要保障IT数据的连续性,保障业务数据保存正常、保障业务的连续性。业务部门最直接的要求总结起来就是——网络不断、系统不瘫、数据不丢。

IT运维管理平台不但要满足业务部门的需求。还能切实解决用户的实际问题,比如对信息中心主管而言,他需要将信息部门工作向决策层汇报,IT运维管理平台可以提供一种计算方式、或者一种表格、让信息中心主管来量化整个信息系统运行情况,同时产生一系列数据向决策层汇报信息部门运营情况。

IT运维管理平台不仅仅是一种提升IT服务质量的手段,更应该帮助用户导入一种服务管理思想、过程方法、制度体系。IT运维管理平台是ITIL落地的工具,实施ITIL是一个循序渐进的过程。它有初期、中期和远期三个阶段。初期一般只实现服务台、事件管理和配置管理。虽然这只是一小部分的流程,但走好这一步不仅可以提高ITIL实施的信心,而且能够为以后的实施打下牢固的基础。

中期的目标是建立问题管理、变更管理、发布管理、安全管理、继续优化或强化配置管理以及IT服务管理中部分的管理流程。在完成初期和中期的ITIL流程实施之后,IT运维基本可以实现可控和在控。可控要求的是基础IT运维有流程、有职责;在控则是要求在可控的基础上进行扩展,在完善IT服务管理流程的同时建立IT服务管理的部分管理流程。

Broadview IT运维管理平台是遵循ITIL,结合国内现状与广通实践经验,建立的以服务流程为驱动的管理平台。通过标准化的建立,IT运维管理平台定义了服务台、事件管理、问题管理、配置管理、变更/发布管理等在内的服务管理流程,能够为用户提供运维过程中的流程化处理的IT服务管理解决方案,通过各流程环节的工单形成IT服务的闭环管理,将人员、流程和技术有机地结合起来,将管理、监控和考核有机地结合起来,提升用户整体的运维管理水平。

IT运维管理平台实施之后,就会形成一套完整的流程。当机房环境发生变化时,系统会通过告警台进行预警,IT运维人员第一时间就能知道业务系统中断了,值班人员通过智能化的告警处理中心提示的内置故障根源分析作出处理,恢复业务系统正常运行。如果不能处理就将故障事件派给相应的IT运维人员,IT运维人员解决问题之后将结果反馈给服务台,所有的配置项信息都储存在配置管理库里,以备查看,事件工单关闭。

同一事件经常发生之后,服务台或IT运维人员就会将此事件作为问题来处理,或者在日常巡检或趋势分析中也可以找到潜在的问题,这时就会启用问题管理,问题工单会派给相应的IT运维人员将事件频发的根源找到并作出处理,消除隐患、彻底解决,避免以后人力浪费在解决同样的事件上。

如果发现问题的根源是软、硬件设备问题造成的,这时需要对软、硬件进行更换或者升级,就不得不提到变更管理。之所以此处添加变更管理,是因为软硬件的变更是具有风险的,可能会影响到整个业务系统,比如常见的软件升级存在的风险就很大,很容易就会升级失败导致业务系统中断,所以变更管理需要经过有效评估,复杂的变更管理还需要变更委员会确定变更计划是否可行、操作是否得当、是否会影响到业务系统、需要在变更前对于预见的风险做好哪些必要准备,变更委员会同意进行变更之后,再由运维人员按照规范进行变更操作,如果是软件的变更会有新版本的升级发布。最后,将所有的问题解决、变更、发布管理涉及到的配置项信息都需要到配置管理库进行记录和更新,最后返到服务台关闭问题工单,形成完整的工作流程。

IT运维团队的组建及管理总结 第6篇

如何建设一支能够解决问题、创造价值、有活力的、不断进取的IT运维团队,并带领这支团队,充分发挥这个团队的优势力量,是运维业务有效开展的关键。运维策略是直接体现运维业务的经济价值所在。好的运维措施、方法可以延长设备使用寿命,充分发挥该设备、物品应有的作用,创造更高的经济价值;错误的运维措施、方法可能缩短设备使用寿命或毁坏设备,严重时会带来一场巨大的灾难。信息安全是IT运维质量最重要的指标之一,只有通过有效、可行的管理、监控手段才能降低安全风险,防止重要数据泄漏,保障数据安全。

IT运维队伍组成

IT运维涉及的专业有:网络、数据库、操作系统、服务器(包括小型机)、存储、桌面运维、视频会议、门户、美工、业务管理系统等。这些专业的专业性很强,需要专业化人才进行运维管理。各专业知识面不一样,能从事运维工作的业务面也不一样。如从事网络、操作系统专业的运维人员可以从事桌面运维工作,但从事桌面的运维人员不一定能从事网络、数据库、存储维护工作。对涉及信息安全的专业必须分开运维,如网络权限、数据库权限、操作系统权限、存储权限、业务管理系统权限管理这几个专业必须独立,不得互相兼用,但做技术的可以兼用。IT运维中技术难度低的工作,工作量较大,人员需求较多,而技术难度高的工作,工作量相对小,人员需求相对较少。因此以上提到的每个专业的人员都必须有,但总的工作可以统一协调安排。

IT运维管理人员较少,工作量大,因此对人员专业面、专业素质要求高。对重要专业要能吃得透,在项目建设中能把握住方案的要害,所组建的设备、系统平台既要保证运行可靠、高效,还要不浪费,而且便于维护。在运维中要能制定合理可行的运维策略,完全了解所管辖的设备运行和停运的风险。在指挥运维作业时,能指出不规范或错误的操作,能意识到相应的风险,并能做到不瞎指挥,不违章指挥。

运维人员按专业设组,每个组至少有一名技术专家,该专家负责解决该专业的疑难问题,根据日常运维业务量配备相应的技术人员,在信息安全不互斥的情况下可以兼用。对以下两个专业特别指出:一是网络专业,该专业覆盖面大,专业性强,影响面大,因此从事网络专业人员的数量有一定要求,并具有5年及以上网络从业经验。专业上具有以下能力:能够独立配置该公司所有品牌的网络设备,能够随意组网,能够优化网络设备的安全策略,能够利用常用工具快速查找、分析、处理故障。二是数据库专业,该专业风险大,数据库一旦故障可能造成所有业务管理系统中断,严重会造成数据丢失,带来无法弥补的损失。因此必须取得DBA证书,并具有5年及以上从事数据库开发或维护工作经验的,才能独立从事数据库维护工作。

IT运维队伍的管理

一个团队要有凝聚力,相互协作,听指挥。尤其在处理疑难问题和应急情况处理时,更需要团队的力量。每个运维人员必须有相应的岗位及岗位职责。IT运维的岗位应按以上提到的IT专业设置。由于工作量的不平衡,在信息安全不互斥的情况下,可以兼任其它岗位,相互渗透。而且便于人才的培养。每台重要设备确定一个主责任人,特别重要的设备可以增加一个辅助维护人员。

新技术学习、专业相互渗透、常规培训必须保证足够的时间和次数。IT技术更新极快,每人每周参加一次集体的培训,相互培训、相互学习,取长补短。每个专业的技术专家每年至少得参加一次一周左右的外送培训。

每天发生的运维业务很多,有常规的、有临时的、有应急的。如何使这些业务不落掉。做到每个运维业务定人定责,随时能跟踪运维进度。因此我们需要利用我们的强项IT技术,建一个问题管理系统,对整个业务执行过程进行监控。做到定人提报问题或定时发布常规任务,定人分配问题。得到任务的人员及时对问题进行处理,如果个人处理不了,可以找相应专业的技术专家处理,技术专家处理不了可以找团队共同处理,直到问题关闭。问题的处理过程及措施都在系统中体现。问题处理不及时,或没达到用户的要求。将会报警并产生扣分项。有了以上的问题管理系统,就可以监控、跟踪每个运维业务,提高信息共享、传输的效率,从而提高运维的工作效率,防止工作失误。周报、月报及每人的考核、团队的考核以系统中具体的数据为依据。

上一篇:解除房屋租赁合同通知函下一篇:探索小学体育教学中游戏教学有效性提升