机房维护技术方案

2022-07-17

方案的制定能最大程度的减少活动过程中的盲目性,保证各项事宜的有序开展,那么方案改如何进行书写呢?以下是小编收集整理的《机房维护技术方案》,供大家参考借鉴,希望可以帮助到有需要的朋友。

第一篇:机房维护技术方案

机房维护方案

机房安全要素与防护措施

第一节 概述

一、电信机房的概念

(一)电信机房是指包含在站点(机站)内的安装有通信设备和其他辅助设施附属或者光缆成端的房间。

(二)站点是在通信网络中表现为一个通信节点,在地理上表现为包含一个或多个通信机房的建筑物或建筑群。

(三)目前我国通信机房主要分为有人职守的机房和无人职守的机房。

二、电信机房的类型

按中国电信网络资源命名规范,通信机房可分为:接入网机房、地下进线间、计算机机房、数据机房、MDF机房、电报机房、卡类机房、监控机房、空调机房、移动机房(专为移动所用)、 网管机房、动力机房、充气机房、远端机房、交换机房、传输机房、用户机房、无线机房、综合机房、微波机房、有线电视机房、综合布线机房、IDC机房等。

电信生产其机房作业,是由专门的值机员、机务员来完成,作业内容是值守、维护、检修固定电话、无线电话、电报、载波、短波、微波、卫星和电力等电信通信设备,使设备处于良好状态,保证其正常运行。

第二节 电信机房作业中常见的事故类型及案例分析

电信机房常见的事故类型有:电气事故;火灾事故;爆炸事故;设备笋坏事故和通信阻断事故。

一、电气事故的种类及发生的主要原因

(一)电气事故种类

电气事故主要包括电流伤害事故、电磁场伤害事故、雷电事故、静电事故、电气火灾和爆炸以及某些电路故障。

(二)发生电气事故在技术上主要表现为:

1、绝缘损坏:电气设备绝缘破损,绝缘电阻不合格。

2、安全距离不够:设备的带电部分与地面及其他带电部分未保持一定的安全距离。

3、接地不合理;低压电力系统未设置应有的接地、保护装置。

4、电气保护措施不力:没有根据某些电气设备的特性和要求采取特殊安全措施,如对各种高压电力设备采取装设高压熔断器和断路器;对低压用电设备应采取相应的低压电气保护措施进行保护。

5、安全标志不明显:在施工、安装及使用电气设备中没有设置明显的安全标志等。

(三)触电事故的种类及表现电流对人体的伤害,即触电事故。它有两种情况,一种是电击伤害,一种是电烧伤害。

二、火灾的危害和类别

l、火灾会造成5种主要的危害:缺氧、火焰或热效应、烟雾、气体燃烧物及建筑物的结构损坏。

2、按着火的方式及燃料的不同,火灾可以分为四大类。

(1)固体材料着火:

固体材料,主要是有机物所造成的着火,形成火苗及灰烬。例如木块、纸及煤炭。灭火的方法是冷却,可以用水来灭火。

(2)液体或液化固体着火:液体或液化的固体形成的着火,其种类可以进一步划分为;

(3)电气着火

电源或设备着火,可以用二氧化碳、石灰、干粉或者蒸发液体作灭火介质,但不能用水。电是起火的原因,但不是一类火灾。因此,电气着火从传统的着火分类中取消了。

关于安装及使用正确类别的灭火器的知识,对于具有特殊风险的地点是极为重要的。

(4)气体爆炸

在粉尘及可燃气体环境下,对于所采用的设备的选择要谨慎考虑,通常由法律规定可以使用的设备种类。

第三节 电信机房作业安全技术要求

一、预防电气触电事故

(一)接地:使用金属的盒、管、架等,应有一个与地相连的电极,并应由有资格的人员定期地对系统进行检查和测试。

(二)工作系统:在做电路及仪表工作时,要求断开开关并锁好,工作人员要亲自对仪表进行检查,以保证其处于”断开”状态。如果必须在通电的电路及仪表上作业时,要有严格的管制措施,而且一事一批准。要考虑使用橡皮或其他的非导电防护措施。为保证不直接参与工作的人员不被暴露在这种风险之中,要使用围栏及警示通知。所有的工具及设备,都必须是绝缘的。

(三)绝缘:在靠近电路的非绝缘部分工作时,要考虑绝缘问题。在所有的情况下,使装置”断开”应是一个主要的目标,除非这样做不可能。可以使用各种永久或临时的绝缘体,如电缆套、橡皮套等。

(四)保险丝:这是一些置于电路之上的金属条,当电路过热时,就会熔断而使电路断电。不同的保险丝会在不同的预先确定的电流下熔断。

(五)电闸:当出现电流过大时,会采用电磁原理发现并自动切断电路。

(六)漏电保护器:发现短路并切断电流。

(七)电气操作人员上岗资格:只有经过适当培训并有适当经验的人员才能从事安装、维护、测试及检验电气电路及设备工作。

(八)静电:在粉尘及液体运动的过程中,会产生电荷,它会产生电火花并且会对粉尘云团及可燃蒸气起点火作用。此外,在其他工作环境下,静电会使工人烦燥,也可能造成因有静电火花而成的其他事故。

(九)预防静电的措施有:接地:不使用或安装产生静电的设备;作业人员穿防静电鞋。

2、高压电源情况:因空中或地下动力线引起的事故,往往严重并产生大火。重要的是,在动力部门没有断电时,不能接近那个接触到或者躺在动力线附近的受害者。否则,有可能会产生电弧。在高压的情况下,绝缘材料要有特殊的性能,并不是随手可得的。

(三)火灾监测及报警方法

l、热监测:用金属熔化(保险丝探测器)或者固体、液体及气体膨胀(热膨胀探测器)为原理的传感装置;

2、辐射监测:用光电栅探测因着火而产生的红外线辐射;

3、烟气监测:应用离子辐射、光及光电传感来探测;

4、可燃气体监测:测量空气中可燃气体的浓度,并与参考值相比较;

5、火灾报警装置要发出独特的音响,使作业场所所有位置都能听到,而 且所有的人都能懂得音响的含义。报警装置可以是人工的,也可以是自动的。

为了适应通信的迅猛发展,加强竞争能力,提高劳动生产率和网络维护水平,促进维护体制的深化改革,迫切需要解决通信环境监控安防问题。通信公司环境监控安防问题是对分散、面广的各个独立的基站机房环境参数进行遥测、遥信、遥控和遥调,监视设备的运行状态,监视机房环境状态,记录和处理有关数据,及时侦测安防告警并通知相关人员处理,从而实现移动交换局和移动通信机房动力及环境的少人或无人值守,提高通信设备的安全性。为了解决上述问题,我公司设计了一套基于GSM/GPRS/CDMA平台的安防解决方案。

在解决方案中,通过GSM/GPRS/CDMA的话音、短信通道将各分散通信点的警告信息上传到中心的相关运维人员,从而使告警信息得到及时处理,提高通信网络的可靠性。目前已经覆盖的警类包括:门磁报警(出入口控制)、温度报警、湿度报警、停电报警、空调被盗报警、剪线报警、红外报警、图像、烟感等等。从而可实现对室内通信环境的安全保护和室外变压器被盗报警、空调被盗报警的及时处理。由此可见,这一解决方案,已经渗透到了通信管理的各个环节,使得各项管理工作更加高效、科学,为外维人员日常的工作带来便捷和安全。

良好的机房环境也是通信网络正常运行的重要保证,因此通信网络维护部门必须加强对机房环境的维护管理,以确保移动通信网络的安全。 解决方案主要特点如下:

1.通信站点的分布点多面广,采用传统的人工巡检维护模式,无法有效保证设备维护工作质量和时效性。

2.由于GSM/CDMA网络的迅速扩展,每个员工承担的工作量越来越大,给维护工作带来了很大的压力。

3.大部分通信站点交流电源供电条件较差,空调均为家用分体空调设备,运行故障时有发生,而且基本不具备来电自启动功能和远程开关机功能。一旦发生市电故障,通信设备的运行环境条件很难保证,需临时派人赶赴现场处理。

4.通信站点分布于城乡,周边地理环境差异极大,基站的安全问题如防火、防盗、防水等就不能得到有效保证,设备运行安全得不到保障。 通过基于GSM、GPRS/CDMA平台的话音、短信,实现将通信站点告警信息(包括烟火警、剪线警、水警、空调失窃警、高温警、门警或入人警、停电警等)通知到中心机房及相关的领导及维护人员并做出处理。

发生警情时将鸣响警笛报警,同时通过GSM/GPRS/CDMA移动通讯网自动循环拨打预先设定的3组报警电话,智能识别工作人员是否接警,一旦接警,不再拨打该号码;并发送中英文短信到预先设定的工作人员手机上,通过短信内容识别报警基站,同时接警中心联网报警,中心机房可通过软件及电话进行远程布防、撤防、监听现场。

第二篇:机房的维护管理方案

机房管理方案

随着计算机技术的快速发展和员工对计算机使用操作步骤的日益增加,播出机房的地位和作用越来越重要。合理有效地对机房进行管理,将对设备的运行维护、快速处理设备故障、降低成本具有十分重要的意义。

一、 机房环境的要求

1、机房空气环境

机房设备维护主要包括电气环境、温湿度、防尘、防鼠等方面。

(1)电气环境要求

电气环境的要求主要是指防静电要求和防电磁干扰等。 防静电要求播出设备内部电路采用大量的半导体、CMOS等器件。由于这类器件对静电的敏感范围为25~1000V,而静电产生的静电电压往往高达数千伏甚至上万伏,足以击穿各种类型的半导体器件,因此机房应铺设抗静电活动地板,地板支架要接地,墙壁也应做防静电处理,机房内不可铺设化纤类地毯。工作人员进入机房内要穿防静电服装和防静电鞋,避免穿着化纤类服装进入机房。柜门平常应关闭,工作人员在机房内搬动设备和拿取备件时动作要轻,并尽量减少在机房内来回走动的次数,以免物体间运动摩擦产生静电。

对于长期运行但无法经常清洁的设备,专门对设备做一次清洁是很有必要的。在长期的维护工作中,有时会碰到电路板的告警,如果对该电路板重新插拔,清洁掉电路板插针周围的灰尘,电路板就会恢复正常。

电磁干扰对播出设备的硬件和软件都有可能造成损害,播出设备本身产生的电磁辐射也会对临近的电子设备产生影响。因此,设备在安装时,应与临近用电设备保持一定的距离,必要时机房应采取屏蔽措施,以免临近电子设备之间相互产生干扰。播出设备的机外布线最好与火线交叉通过,并尽量避免长距离靠近并行。

(2)温湿度要求

播出设备尤其是交换机和磁盘阵列等设备对机房的温度有着较高的要求。温度偏高,易使机器散热不畅,使晶体管的工作参数产生漂移,影响电路的稳定性和可靠性,严重时还可造成元器件的击穿损坏。播出设备在长期运行工作期间,机器温度控制在18℃~25℃之间较为适宜。湿度对通信设备的影响也很大。空气潮湿,易引起设备的金属部件和插接件管部件产生锈蚀,并引起电路板、插接件和布线的绝缘降低,严重时还可造成电路短路。空气太干燥又容易引起静电效应,威胁播出设备的安全。为了保持播出机房的相对湿度符合标准,可视机房具体情况配臵加湿器或抽湿机。加湿器工作时不要离通信设备太近,且喷雾口不要正对着通信设备,以防喷出的雾气对设备有影响。加湿器和抽湿机可根据机房内温度计的显示数据随时调整。一般说来,机房内的相对湿度保持在40%~60%范围内较为适宜。

(3)防尘要求

电子器件、金属接插件等部件如果积有灰尘可引起绝缘性降低和接触不良,严重时还会造成电路短路。空气中存在着大量悬浮物质,在这些悬浮物质中,对通信设备形成危害的污染物不计其数。污染物一旦进入机房,就会吸附在线路板上,形成人们肉眼能够发现和不能够发现的带电灰尘。随着时间的推移,线路板上吸附的灰尘越来越多,灰尘就会通过不同方式不同程度地影响设备的正常运行。

污染物对播出设备造成危害的事故现象主要有:元器件设计功能值改变;信号传输频率改变;输入输出值不稳定;系统运行不稳定;系统告警,重新启动时有时能恢复有时不能恢复;线路板出现故障,经测试,不能修复,只能换板。

(4)防鼠要求 在机房内,数据的传输都时靠线路连接完成,而这些线路大多都时裸露在地板下面。非常容易让老鼠咬断。一旦发生线路故障,就会危及整个机房的正常播出。因此,防鼠非常重要。

以上事故现象时有发生,如果维护人员不及时解决,设备维护事实上就成了被动维护。

2.配套电源保障

随着电源设备的智能化和高度集成化,在一体化方案设计里,各种动力设备应具有良好的电磁兼容性和电气隔离性能,不影响其他设备的正常工作。一体化供电方案在统筹设计保证主设备不间断供电的同时,也应在动力设备之间的数据通信上保证有良好的兼容性和通用性。各种数据协议能良好地兼容以组成一个完整的动力监控网络系统。

二、设备的管理和维护

一般情况下,正常运行的通信设备,其印刷电路板和接插件等部件是不能随便触动的(除了支持热插拔的板件),维护人员对通信设备硬件的日常管理和维护主要是除尘保养和技术维护。

技术维护就是维护人员对通信设备的硬件部分进行日常观察和定期检测。发现问题及时排除。其主要工作内容包括定期检测设备运行状况、处理器负荷等,根据告警信息的提示,及时对可疑部件进行检测和维修,并根据工作需要调整电路板的位臵,更换有故障的电路板和部件,另外,还应及时对维护的终端、进行软件杀毒,保护主机和软件的安全。

设备的软件管理和维护内容 1.周维护主要内容: 清洁机架内外,设备面板和监视器,显示器屏幕; 机房外部每天清洁;每周对设备吸附尘土情况进行检查,有灰尘的地方用干净的毛刷进行清除,以保持清洁。

检查个切换开关功能键,监测报警系统的功能及各设备指示状态;如果有不不正常的显示和状况及时进行调整。

检查各信号源的视音频幅度,卫星接收机场强指示;如果外接信号和录象机信号不稳定,及时进行调整。

检查各频道播出信号射频电平,视频调制度及伴音频偏;如果场强和电平发生偏移和衰减,及时进行调整,恢复其正常。

检查机房供配电系统;发现机房的供电系统电压不稳定和输出值过大或偏小,及时进行调整,恢复其常态输入电压。

检查机房空调和照明设备.检查空调运行是否正常,照明系统是否正常,如不正常,及时进行清理和更换相关部件。 2.月维护主要内容: 周维护所有内容; 整理各机架设备连接线;发现有松动和掉落的地方及时复原,并做好相应的标记,对其进行跟踪检查。

检查通风设备桥架和加固情况;发现有偏移和松动的情况时,及时进行调整和紧固。

检查各光发射,接收设备的工作状态.如果有接受不稳定和运行不正常,进行检查并调试到最佳状态

3.季维护主要内容: 周,月维护所有内容; 清洁机房空调的过滤网,检查空调运行情况,必要时进行灰尘清理; 按操作规程对蓄电池进行完全的充放电维护; 对桥架线路进行全面性能检查和维护。 对设备进行全面的灰尘清理和检修。 4.年维护主要内容: 周,月,季维护所有内容;

三、具体的维护方法

根据机房的具体情况设定合理的除尘周期,并按照机房内部、机房外部、机房设备内部三部分进行分别清洁。机房内部卫生应每三天清理一次,每半个月进行一次彻底清洁;对有必要清洁的设备每月进行一次清洁;每两年根据实际使用情况对机房设备和机房进行中修,每五年对机房及设备进行大修。 清洁各设备的电路板和接插件

对显卡和网卡进行清理,对其PCB板卡电容用棉花粘酒精捻干后进行擦洗,然后用电吹风吹干后,插回原插槽紧固。

清洁各监视器和计算机内部; 主板的清洁

作为整个设备的基础硬件,主板堆积灰尘最容易引起问题,其也最容易聚集大量灰尘。首先要取下所有的插接件,拔下设备要进行编号,以防弄混。拆除固定主板的螺丝,取下主板,用羊毛刷去各部分的积尘。力量一定要始终,以防碰掉主板表面的贴片元件或造成元件的松动以致虚焊。灰尘过多处可以使用无水酒精进行清洁。对于主板上的测温元件(热敏电阻)要进行特殊保护,如提前用遮挡物对其进行遮挡,避免这些元件损坏而引发主板出现保护性故障。主板上的插槽如果回车过多可用皮老虎或吹风机进行清洁,如果出现氧化现象,可以用具备一定硬度的纸张,插入槽内来回擦拭(表面光滑那面向外)。 插接件表面可以用与清理主板相同的方法清理,插接部分出现氧化现象的,可以用橡皮仔细把金手指擦干净,插回到主板后,在插槽两侧用热熔胶填避缝隙,防止在使用过程中灰尘的进入和氧化情况出现。

风扇的清洁

风扇的叶片内、外通常积灰也会非常严重,我们可以用手抵住叶片逐一用毛刷掸去叶片上的积灰,然后用湿布将风扇及风扇框架内侧擦净。还可以在其转轴中加一些润滑油以改善其性能并降低噪音。具体加油方法是,揭开油挡即可看到风扇转轴,用手转动叶片并向转轴中滴入少许润滑油使其充分渗透,加油不宜过多否则会吸附更多的灰尘。最后贴上油挡。

散热片的清洁对于风扇与散热片可分离的结构,可以拆下散热片彻底用水清洗,灰尘少的可以用软毛刷加吹气球的方法清理,对于不可分离的散热片,可以用硬质毛刷清理缝隙中的灰尘,同时辅以吹风机吹尘。清洗后的散热片一定要彻底干燥后再装回,重新安装散热片时建议抹上适量导热硅脂增强热传导性。

箱体表面清洁 对于机箱内表面上积尘,就可以用拧干的湿布进行擦拭了。注意湿布应尽量干,避免残留水渍,擦拭完毕用电吹风吹干。

外围插头、插座清洁

对于这些外围插座,一般先用毛刷清除浮土,再用电吹风清洁。如果有油污,可用脱脂棉球沾无水酒精去除。也可使用清洁剂,不过清洁剂需为中性,偏酸性会对设备有腐蚀作用,且清洁剂挥发性一定要好。

电源

是非常容易积灰的设备,而且受温度影响严重。拆解电源时一定要注意内部高压,如果没有一定专业知识,不要私自拆开。如不拆解,可以用吹风机强挡对着电源进风口吹出尘土。并用硬毛刷隔着风扇滤网清洁一下风扇叶片。

检查调整信号源和设备测试口的电平及性能指标; 检查调整各监测,报警系统的门限阀值。 服务器磁盘阵列

磁盘阵列是管理几个中心节目的存储中心,对磁盘阵列的维护和保养是十分重要的,磁盘阵列的清理从里到外,从电源风扇到机存储卡插槽,先用毛刷把灰刷干净,然后拆下硬盘及卡槽,用棉花粘酒精清洗后用电吹风吹干,按顺序进行安装后调试,正常后再接上数据线进行数据传输。

由于目前的网络设备和服务器在运行的过程中会产生很多的热量,为了将这些热量散发出去,通常都会采用主动散热的方式排出热量,而由于机房的空间狭小,这些设备通常采用风冷方式进行散热,散热孔与对流的空气配合,非常高效的将灰尘带入设备内部。除此之外,某些设备工作时会产生高压与静电,都会吸引空气的灰尘。

除尘维护结束后重新将硬件装入机箱接上电缆和电源,在不盖机箱的情况下先试运行一下系统,看一下各风扇运转是否正常,查看是否有插接不牢或异响。定时运行诊断程序检测其工作状态;及时拷贝和打印数据库资料,并做好保管工作;配合厂家作好软件远程维护工作;做好软件的防病毒和杀毒工作。

第三篇:福建电信IDC机房维护保障方案

1. 机房稳定保障:应提供基本IDC保障,包括稳定的电力供应、网络环境、温湿度,并提供可靠的网络安全、安保、消防等防护。并配备经验丰富工程师随时应急处理故障等。如因环境问题引起的网络中断、设备损坏等情况应赔偿我方直接、间接经济损失。

2. 机房基本设施提供:包括座椅、机房专用推车、显示器、键鼠、排查、螺丝刀、老虎钳、网线、夹线钳、测线仪、拖鞋、鞋套等。(目前东门机房座椅较少)

3. 机房值班配合:如服务器出现宕机、我们暂无人员在现场或短时间内无法到达现场时电信值班人员现场配合处理,此要求重点在于电信机房值班电话必须7*24小时电话畅通,机房值班人员具备IDC相应技能。

4. 机房施工配合:我方新入服务器时安排足够网络、电力、机架空间等相应环境资源。如服务器进入时安排施工队对内外网网线进行布置、机架挡板调整等工作,施工工作应在当日进行,避免出现应环境未搭建拖延服务器出机完成时间现象。

5. 机房日常巡查:每天至少一次巡查机房。核查电力、空调运行是否稳定,并每周巡查所有服务器前端告警界面是否出现异常告警等。

6. 目前网龙公司在电信所有操作都必须向电信下操作单,因本司移服、更换IP操作机器频繁。下单又存在一定延时,给本市工作效率造成一定影响。建议今后网龙公司在电信机房除服务器进出仍需下单外其他操作,如更换IP、迁移位置、划分VLAN操作免除电子单据。

7. 升级机制配合措施:(包含多种方案) 方案A:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,遇到如更换故障服务器硬盘时配合更换。针对电信担心备件数量问题,我司将针对此建立应急备件库专供电信使用。

方案B:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,在突发故障时由电信帮忙进行现场操作,包括服务器故障排查,网龙故障排查,服务器IP变更,服务器机柜迁移等操作。

方案C:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,所有公司现场操作有电信帮忙处理,包括服务器上下架,GHOST系统,现场故障处理,现场服务器运维等(类似服务器租用服务)。此工作量较大,需电信扩招一专人负责。7*5服务标准即可。

第四篇:机房维护

一、UPS及电源维护保养服务

1、UPS的维护保养服务

1.1UPS维护的必要性

尽管UPS拥有强大的功能,但它在骨子里却十分“娇气”,因为它对工作环境有着非同一般的要求。

首先,UPS十分爱干净,对灰尘特别“感冒”。如果UPS长期处于灰尘漫舞的环境中工作,很容易发生故障,因为灰尘会不知不觉地渗入UPS的控制框中,并直接覆盖到它的电子线路中。时间一长,UPS内部的工作电路就会散热不良,长此以往自然就容易出现故障。

其次,UPS害怕潮湿。UPS内部有电子线路,如果电子线路中的各个元器件长期在潮湿环境中工作,其电气性能会逐步下降,而且还有可能产生漏电现象,引发火灾事故。

最后,UPS对环境温度十分敏感。高于40℃的环境或低于0℃的环境会降低UPS的工作效率,使它的潜能得不到充分发挥,从而减少使用寿命。

对于客户而言,往往因为专注于业务或者受成本所限,缺乏专业的UPS维护人员以及充足的备件。如果说小故障尚可解决,那么,一旦UPS发生突如其来的大故障,客户便会措手不及,或者无法找到症结所在,或者没有可更换的备件。此时,损失已经造成了。

从深层次分析,造成这种状况的重要原因是有些厂商服务能力不足,服务响应速度及质量参差不齐。很多UPS设备被采购后,难以得到厂商足够的服务支持,从而导致操作和维护发生困难。

1.2UPS的使用环境及技术要求

UPS的使用环境要求

◇ 放置位置必须平稳;

◇ UPS机箱各面距墙壁必须保持足够的通风距离; ◇ 远离热源,无阳光直射,无腐蚀性; ◇ 保持正常的温度和湿度; ◇ 保持室内洁净。

UPS使用技术要求

◇使用UPS时须考虑负载的大小及特性

UPS额定输出功率是标志该产品能驱动多大功率负载的重要参数,它随负载功率因数的变化而变化,如1kVA的UPS并不一定能驱动1kVA的负载,为了延长UPS的使用寿命,UPS不宜长期处于满载状态下运行。后备式UPS一般选取额定功率的60%~70%的负载量,在线式UPS一般选取额定功率的70%~80%的负载量。同时UPS也不宜长期处于过度轻载状态下运行。

◇做好UPS的防感应雷害工作

雷击是所有电器的天敌,一定要注意保证UPS的有效屏蔽和接地保护。雷害主要是因雷云空对地或空对空放电所引起的一系列反应造成的。当云层放电时,附近架空电源线和通信线路因电磁感应现象会产生感应高电位脉冲。这些高电位脉冲沿着电源线或通信线进入UPS,而UPS中采用了大量的CMOS集成电路模块和控制用的CPU等微电子器件,它们对雷电的电磁脉冲非常敏感,因此很容易被击坏。在UPS具备有效屏蔽和良好保护接地的前提下,一定要做好电源线和通信线(例如远端监控信号线)的防雷过压保护。

1.3 UPS使用维护与保养

◇ 禁止在UPS输出端口接带有感性的负载。

◇ 使用UPS电源时,应务必遵守产品说明书或使用手册中的有关规定,保证所接的火线、零线、地线符合要求,用户不得随意改变其相互的顺序。

◇ 严格按照正确的开机、关机顺序进行操作。避免因负载突然加载或突然减载时,UPS电源的电压输出波动大,而使UPS电源无法正常工作。

◇ 严禁频繁地关闭和开启UPS电源。一般要求在关闭UPS电源后,至少等待6秒钟后才能开启UPS电源,否则,UPS电源可能进入“启动失败”的状态,即UPS电源进入既无市电输出,又无逆变输出的状态。

◇ 禁止超负载使用。UPS电源的最大启动负载最好控制在80%之内,如果超载使用,在逆变状态下,时常会击穿逆变管。实践证明:对于绝大多数UPS电源而言,将其负载控制在30~60%额定输出功率范围内是最佳工作方式。

◇ 电池的放电要求:一般UPS对电池放电有保护措施,但放电至保护关机后,电池又可以恢复到一定的电压,但这时不允许重新开机,否则会造成电池过放电。UPS必须重新充电后才能投入正常使用。

◇ 新购买的UPS(或存放一段时间的UPS),必须先对电池充电之后才能投入正常使用。否则无法保证备用时间。

◇ 对于长期无停电的UPS,应当每隔3~6个月对UPS放电,然后重新充电。这样才能延长电池的使用寿命。

◇ 对于长期存放的UPS,应当每隔3~6个月对UPS开机使用和充电,否则UPS主机和电池都会损坏。

◇ 定期对UPS电源进行维护工作。清除机内的积尘,测量蓄电池组的电压,检查风扇运转情况及检测调节UPS的系统参数等。

2、电池的维护保养服务

2.1UPS蓄电池维护的必要性

在一个不间断电源(UPS)系统中,可以说蓄电池是这个系统的支柱,没有电池的UPS只能称作稳压稳频(CVCF)电源。UPS所以能够实现不间断供电,就是因为有了蓄电池,在市电异常时,逆变器直接将蓄电池的化学能变成交流电能输送出去,使用电设备得以连续运行下去。

目前,中小型UPS电源中广泛使用的免维护密封铅酸蓄电池,占据UPS电源总成本的1/4-1/2之多,不仅如此,实际维修也表明,约有50%以上的UPS电源故障与UPS蓄电池有关。UPS蓄电池的失效主要表现为端电压不够,容量不足或瞬间放电电流不满足带载启动要求等。

一般正常使用的UPS,其电池寿命在5年左右,但目前国内有相当部分UPS电池在投入使用不到1年就开始出现问题,更有甚者,有些进口品牌的国产电池在制造工艺上存在先天的缺陷,另一方面是由于后天缺乏必要维护造成。值得注意的是许多使用单位由于缺乏必要的测试维护手段,根本不清楚自己系统UPS蓄电池的健康状况,为UPS系统正常工作留下隐患。

2.2国内UPS蓄电池维护现状

UPS蓄电池的维护与一般低压系统蓄电池的维护类似,当引进新电池时,要求工程验收,对电池的内阻、电压进行同时测试,保证其内阻一致性;当新电池投入使用后,要求保持适宜的电池工作环境温度,要求定期测量各电池端电压及内阻,当各电池内阻或压差过大时,要进行均充,并定期对电池进行深度放电,以便检查电池组的性能优劣以及保持电池的活性。

但是实际运用中,由于各种条件的限制,UPS蓄电池的维护很少有人完全按照上面所述进行,首先新电池验收,由于时间长,又无方便工具可供利用,有相当多的人根本没有做这一工作即将电池投入使用,据统计,在中国大陆约有95%以上的UPS电池缺乏必要的维护,这为日后UPS供电故障埋下隐患;其次,新电池投入使用后,由于一般UPS电池是装在柜子里,测量、脱离都不方便,很少测量内阻及端电压;依现有条件(98%以上的UPS电池没有安装监控设备),广大维护人员所能进行的只有每隔一段时间,关闭市电让UPS电池对实际系统放电一段时间,充其量只是让电池组活化一下,以保持电池的活性,而对于电池的性能优劣及各节电池的剩余容量等重要数据还是无从知晓。 2.3 UPS蓄电池测试维护手段

一般UPS电源对电池的要求:满足一定的端电压;电池应具有在启动放电瞬间就能输出大电流的特性;满足一定的容量,以保证逆变供电的时间。

◇用万用表测量电池的端电压

实践证明,用万用表测量UPS电池的浮充端电压是无法判定旧电池是否已经失效。所以一般要离线或在线测量电池的端电压,被测电池的端电压为12V左右(对12V电池而言),最低不能低于10.5V。不足10.5V的电池即为欠压或已经失效的电池。若这种电池在经过充电或激活充电后端电压仍达不到12V,即为失效电池。

◇测试UPS电池是否具有启动瞬间输出大电流的特性

后备式UPS电源由市电供电向逆变供电的切换时间要求小于7ms,一般设计为4-5ms左右。这就是说,一旦市电供电中断,UPS电池必须在小于4-5ms时间内输出负载所需的电流。有些失效的电池能够满足端电压和容量的要求,但不能在少于4-5ms内放电电流达到大电流的要求,也是不合格电池。UPS电池瞬间输出大电流的特性只有在关闭市电才能测试,在不知道电池性能情况下有一定的风险,一般是不进行的。 ◇测试电池的内阻

蓄电池的寿命取决于电池的充放电次数,随着充放电次数的增加,电池的内阻增加,放电能力减少,当达到一定程度时,这种变化加快。因此,长期跟踪测试电池或电池组的内阻,电压,利用机内存储的电池标准即可判断电池的优劣状态,该组电池中的最差落后单体亦明了显示。同时具有保存和自动记录、显示测试报告功能。

3、维护模式及内容

签订维护合同后,我公司会安排专业工程师定期巡检及解决突发故障。 周期巡检:

主要对设备进行周期巡检维修、保养、特性检测,并给出巡检检测报告,及时提出相关改进或更新建议。检查系统运行情况,进行相关功能测试,发现问题或隐患,及时解决,保证系统可靠稳定地运行。内容主要包括:

◇ 测试及记录主机运行参数,

◇ 根据实际情况进行电池核对性容量测试;

◇ 用专用仪器对后备用蓄电池组逐个测量,进行充放电维护及调整充电电流,确保电池正常工作;

◇ 检查风机及风道情况并清洁,主机外观清洁、内部除尘; ◇ 检查记录输出波形、谐波含量、零地电压等, ◇ 清洁系统主设备及电池等,

◇ 查清各参数是否正确或切合实际,能及时发现事故隐患

◇ UPS各项功能测试,如检查逆变器、整流器等启停、电池管理功能,有条件进行UPS同市电的切换试验。

◇ 检查主机、电池及相关配电引线及端子的接触情况是否可靠,并测量记录压降及温升,有条件地进行相关紧固工作等。

◇ 并机系统进行单机运行测试,热备份系统负荷切换测试等。

◇ 对设备故障、造成元器件损坏,所需要更换的元器件费用以成本价算,免收修理费;

二、机房专用精密空调的维护

1、精密空调的结构及工作原理

精密空调主要由压缩机、冷凝器、膨胀阀和蒸发器组成。

一般来说空调机的制冷过程为:压缩机将经过蒸发器后吸收了热能的制冷剂气体压缩成高压气体,然后送到室外机的冷凝器;冷凝器将高温高压气体的热能通过风扇向周围空气中释放,使高温高压的气体制冷剂重新凝结成液体,然后送到膨胀阀;膨胀阀将冷凝器管道送来的液体制冷剂降温后变成液、气混合态的制冷剂,然后送到蒸发器回路中去;蒸发器将液、气混合态的制冷剂通过吸收机房环境中的热量重新蒸发成气态制冷剂,然后又送回到压缩机,重复前面的过程。

2、计算机机房中选用精密专用空调的原因

2.1温度、湿度控制对计算机机房的重要性

在计算机机房中的设备是由大量的微电子、精密机械设备等组成,而这些设备使用了大量的易受温度、湿度影响的电子元器件、机械构件及材料。

温度对计算机机房设备的电子元器件、绝缘材料以及记录介质都有较大的影响;如对半导体元器件而言,室温在规定范围内每增加10℃,其可靠性就会降低约25%;而对电容器,温度每增加10℃,其使用时间将下降50%;绝缘材料对温度同样敏感,温度过高,印刷电路板的结构强度会变弱,温度过低,绝缘材料会变脆,同样会使结构强度变弱;对记录介质而言,温度过高或过低都会导致数据的丢失或存取故障。

湿度对计算机设备的影响也同样明显,当相对湿度较高时,水蒸汽在电子元器件或电介质材料表面形成水膜,容易引起电子元器件之间出现形成通路;当相对湿度过低时;容易产生较高的静电电压,试验表明:在计算机机房中,如相对湿度为30%,静电电压可达5000V ,相对湿度为20%,静电电压可达10000V,相对湿度为5% 时,静电电压可达20000V,而高达上万伏的静电电压对计算机设备的影响是显而易见的。

2.2精密空调与舒适性空调的区别

1)传统的舒适性空调主要是针对家庭、办公场所、宾馆、商场等场所设计的,主要对象是人,送风量小,在制冷的同时也在除湿;因此舒适性空调对计算机机房来说将会使机房内湿度过低,从而使计算机设备内部的电子元器件表面累积静电,放电损坏设备,干扰数据的传输和储存,同时由于50% 左右的能量用于除湿,大大地增加了能耗;而专用精密空调由于采用了控制蒸发器内的蒸发压力和使蒸发器的表面温度高于露点温度等技术就克服了舒适性空调的上面的一些缺点。

2)舒适性空调风量小,风速低,只能在送风方向局部气流循环,不能在机房形成整体气流循环,使机房的冷却不均匀,存在区域温差;而计算机机房专用精密空调风速高,风量大使机房内能够形成整体的气流循环,使所有设备能够得到较好的冷却。

3)由于计算机机房内的设备大都是长年运行,工作时间长,要求空调设备具有及高的可靠性,舒适性空调较难满足要求,尤其是在冬天,在北方寒冷地区,由于室外温度太低,舒适性空调不能够正常运行,而机房专用精密空调通过可以控制的室外机冷凝器能够保证正常工作。

4)舒适性空调不能准确地控制机房内的温度,湿度也较难控制,因此不能满足计算机机房的需要,而计算机机房专用精密空调由于有专门的加湿系统、高效的除湿系统及电加热补偿系统,能够精确地控制机房内的温度、湿度。

5)使用寿命长短是计算机机房精密空调与舒适空调的另一个重要区别,精密空调的设计寿命一般在10-15年,平均无故障时间在10万小时以上,而舒适性空调的设计寿命为5-8年,全年无间断运行的使用寿命为3-5年。

3、计算机机房中精密空调的维护

精密空调的构成除了前面介绍的压缩机、冷凝器、膨胀阀和蒸发器外,还包括:风机、空气过滤器、加湿器、加热器、排水器等,因此我们在日常的机房管理工作中对空调的管理和维护,主要是针对以上部件去维护的。下面是我们在日常工作中对计算机机房专用精密空调的一些维护经验和学习体会。

3.1控制系统的维护

对空调系统的维护人员而言,在巡视时第一步就是看空调系统是否在正常运行,因此我们首先要做以下的一些工作。

1)从空调系统的显示屏上检查空调系统的各项功能及参数是否正常;

2)如有报警的情况要检查报警记录,并分析报警原因;

3)检查温度、湿度传感器的工作状态是否正常;

4)对压缩机和加湿器的运行参数要做到心中有数,特别是在每天早上的第一次巡检时,要把前一天晚上压缩机的运行参数和以前的同一时段的参数进行对比,看是否有大的变化,根据参数的变化可以判断计算机机房中的计算机设备运行状况是否有较大的变化,以便合理地调配空调系统的运行台次和调整空调的运行参数。当然,对目前而言有些比较老的空调系统还不能够读出这些参数,这就需要晚上值班的工作人员多观察和记录。

3.2压缩机的巡回检查及维护

1)听—用听声音的方法,能较正确的判断出压缩机的运转情况。因为压缩机运转时,它的响声应是均匀而有节奏的。如果它的响声失去节奏声,而出现了不均匀噪音时,即表示压缩机的内部机件或气缸工作情况有了不正常的变化。

2)摸—用手摸的方法,可知其发热程度,能够大概判断是否在超过规定压力、规定温度的情况下运行压缩机。

3)看—主要是从视镜观察制冷剂的液面,看是否缺少制冷剂。

4)量—主要是测量在压缩机运行时的电流及吸、排气压力,能够比较准确判断压缩机的运行状况。

当然对压缩机我们还需要检查高、低压保护开关、干燥过滤器等其他附件。

3.3冷凝器的巡回检查及维护

1)对专业空调冷凝器的维护相当于对空调室外机的维护,因此我们首先需要检查冷凝器的固定情况,看对冷凝器的固定件是否有松动的迹象,以免对冷媒管线及室外机造成损坏。

2)检查冷媒管线有无破损的情况(当然从压缩机的工作状况及其它的一些性能参数也能够判断冷媒管线是否破损),检查冷媒管线的保温状况,特别是在北方地区的冬天,这是一件比较重要的工作,如果环境温度太低而冷媒管线的保温状况又不好的话,对空调系统的正常运转有一定的影响。

3)检查风扇的运行状况:主要检查风扇的轴承、底座、电机等的工作情况,在风扇运行时是否有异常震动机风扇的扇也在转动时是否在同一个平面上。

4)检查冷凝器下面是否有杂物影响风道的畅通,从而影响冷凝器的冷凝效果;检查冷凝器的翅片有无破损的状况。

5)检查冷凝器工作时的电流是否正常,从工作电流也能够进一步判断风扇的工作情况是否正常。

6)检查调速开关是否正常,一般的空调的冷凝器都有两个调速开关,分为温度和压力调速,现在比较新的控制技术采用双压力调速控制,因此我们在检查调速开关时主要是看在规定的压力范围内,调速开关能否正常控制风扇的启动和停止。 3.4蒸发器、膨胀阀的巡回检查及维护

蒸发器、膨胀阀的维护主要是检查蒸发器盘管是否清洁,是否有结霜的现象出现,以及蒸发器排水托盘排水是否畅通,如蒸发器盘管上有比较严重的结霜现象或在压缩机运转时盘管上的温度较高的话(通常状况下,蒸发器盘管的温度应该比环境温度低10℃左右),就应当检查压缩机的高、低压,如果压力正常的话,就应考虑膨胀阀的开启量是否合适。当然出现这种现象也有可能是其它环境的原因引起的,比如空调的制冷量不够、风机故障引起风速过慢等原因造成的。

3.5加湿系统的巡检及维护

1)由于各个地方的空气环境不同,对加湿器的使用和影响也不一样,但我们在日常的维护工作中同样要做的事情是观察加上罐内是否有沉淀物质,如有就要及时冲洗,因为现在空调的加湿罐一般都是电极式的,如沉淀物过多而又不及时冲洗的话,就容易在电极上结垢从而影响加湿罐的使用寿命。当然现在有些加湿罐的电极是可以更换的。

2)检查上水和排水电磁阀的工作情况是否正常。在加湿系统工作的过程中,有一种情况经常出现,但又不容易判断,即在空调系统正常工作的时候,由于某种原因出现了一段时间的停水,后又恢复供水,在恢复供水后加湿罐不能够正常上水,出现这种现象的原因有多种,并且在大多数空调器的控制系统中直接对加湿系统复位通常是不能够解决问题的;根据我们多年来的维护来看,引起这种现象的主要原因是停水后的空气进到进水电磁阀前端,对进水电磁阀的正常开启造成了一定的影响,解决这种现象有两种比较有用的办法,一是卸开进水口,排掉空气,二是关掉加湿系统的电源,重新给电磁阀上电也基本上能够解决这类问题。

3)检查加湿罐排水管道是否畅通,以便在需要排水和对加湿罐进行维修时顺利进行。

4)检查蒸汽管道是否畅通,保证加湿系统的水蒸汽能够正常为计算机设备加湿。

5)检查漏水探测器是否正常,这对加湿系统来说是比较重要的一环,因为排水管道如果不畅通的话就容易形成出现漏水的情况,如漏水探测器不正常的话,就易出现事故。当然,对一般的空调系统而言,漏水探测器是选件,如空调系统未配有漏水探测器,那么我们更要注意监测排水管道是否畅通,同时也要做好机房防水墙的维护工作。

3.6空气循环系统的巡回检查及维护

对空气循环系统我们主要是考虑空调系统的过滤器、风机、隔风栅及到计算机设备的风道等因素。因此我们在日常维护工作中要做好以下的一些工作:

1)计算机机房的设备经常有设备移动的现象,而设备的移动一般又不是由空调设备的维护人员去完成,因此我们在设备移动后应及时检查机房内的气流状况,看是否有气流短路的现象发生,同时在新设备的位置是否存在送风阻力过大的情况。如有上述现象应及时调整,如果实在调整不过来,应建议设备移到新的合适的位置。

2)检查空调过滤器是否干净,如脏了就应及时更换或清洗。

3)检查风机的运行状况:主要是检查风机各部件的紧固情况及平衡,检查轴承、皮带、共振等情况;对风机的检查应该特别仔细,因为蒸发器的热交换过程主要是由在风机的作用下使快速流动的气流经过低温的蒸发器盘管来完成的,从而使空调达到制冷的效果,所以风机的是否正常运行是空调系统是否正常运行的最后体现;对风机而言当然最重要的就是电机了,因此我们在日常维护中首先就应查看其皮带的状况、主从动轮是否在同一面上等;皮带调整的松紧程度要合适,太松容易打滑,太紧对皮带的磨损太快,皮带的松紧跟外部对静压得需求也有比较大的关系,当然这种调整是在空调系统控制的范围之内进行的;现在部分比较先进的空调系统采用了一体化的风机,就解决了皮带调整的问题。

4)测量电机运转电流,看是否在规定的范围内,根据测得的参数也能够判断电机是否是正常运转。

5)测量温、湿度值,与面板上显示得值进行比较,如有较大的误差,应进行温度、湿度的校正,如误差过大应分析原因。出现这种情况从我们的维和经验来看有两种原因:一是控制板出现故障,二是温度、湿度探头出现故障需要更换。

6)检查隔风栅的关闭情况是针对已经停机的空调而言的,这也是我们在日常维护工作中比较容易遗漏的一个环节,但也是一个比较重要的环节,因为一台空调停止运行,如果隔风栅未关闭其温度、湿度探头检测到的是其它空调的出口的温度和湿度,在空调下一次开启时控制系统就会根据其先前检测到的参数而对空调系统的运行情况做出控制,这时空调控制系统就会对压缩机、加湿、除湿系统地运行情况做出错误的指令。现在大多数空调设计时都没有考虑这种状况对空调系统的影响,因为这种影响的时间较短,在较短的时间内系统会根据新的信息达到正常的运行状况,所以没有设计隔风栅,这种影响虽然较小,但我们认为在要求很高的计算机机房中我们最好不要让系统出现一段时间的错误运行,因此我们可以为空调系统人为地增加隔风栅。

7)检查计算机及其它需要制冷的设备进风侧的风压是否正常,因为随着计算机设备的搬迁和增加,地板下面的线缆的增加有可能就影响空调系统的风压,从而造成计算机及其它设备跟前的静压不够,这就需要我们设备维护和管理人员对空调系统的风道做出相应的调整或增加空调设备。

以上为我们对计算机机房精密空调进行巡检和维护时做的基本工作,在不同机房中也许有所不一样,因为有些步骤需要根据设备的状况和型号而定。

三、公司售后服务体系

本公司专业致力于机房动力设备:电源(UPS)、电池、机房精密空调等技术支撑维护服务工作,旨在为用户提供多品牌、综合性、专业化的机房动力设备服务平台,通过合理的收费价格,向用户提供优质的维护服务。

维护宗旨:

1、 成立专门的维护体系,提供维护体系热线电话及相关负责人联系方式,配备专用的车辆及仪器仪表和工具,实行7*24小时服务方式。

2、 首次巡检建立设备台帐,健全系统操作说明及相关标志配备,建立代维设备维护台帐,每次维护出具维护报告(含建议等)。

3、 按客户要求和现场实际情况进行合理的维护计划编制,维护工作严格按计

划实施。

应急维修:

1、得到维修及抢修通知时,正常情况下5分钟内技术工程师电话响应。

2、若需立即到现场解决的,正常情况下市区1小时内技术工程师作出响应赶赴现场,浙江省8小时内技术工程师赶到现场,迅速查明原因,组织指挥相关部门尽快处理、恢复运行。

3、初步判断故障原因,制定相关应急维修方案,经相关部门同意后进行维修服务。

4、维修完毕后有条件时进行系统特性检测,出具特性报告和维修报告。并进行维护台帐的记录等。

技术服务支持:

1、 对系统设备配置进行合理调整提供咨询和建议,以提高设备利用率,延长电源系统设备使用时间,发挥其最大效能。

2、 电源系统/空调系统的设计、改造提供技术咨询:对电源割接、系统扩容、工程设计、设备搬迁等提供技术咨询和建议。

3、 对电源系统引起的故障或疑点提供技术咨询和建议性意见。

4、对UPS及同类型电源设备或空调维护人员进行培训和技术交流工作,组织维护人员的岗位培训和考核,不断提高上岗人员的技术水平和处理障碍的能力。

5、对新产品新设备进行性能方面的检测和技术评估。

6、提供UPS、通信电源、精密空调维护测试设备,包括交流负载箱、直流负载箱、蓄电池容量测试仪等,以及相关仪器仪表等。

第五篇:IDC机房维护

运维IDC机房经验

一、什么是IDC机房运维?

IDC机房运维涉及到方方面面的问题,它不同于其他运维,处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护,还有些大公司建有自己的IDC机房,但管理层面上可能只是网络信息部门的一个子部门,但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。

二、分层运维

我认为我们所熟知的计算机能有今天的成就很大一个成功是在于它的模块化设计,以及分层体系,现在我们用的PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便,快捷。

现在我们正在步入云计算时代,云计算的实施却是阻碍重重。但是云计算是必然的趋势,因为这是人们对信息自由的渴望、是对资源合理利用的迫切需要。所以说云计算的发展也少不了用模块化,分层次的进行设计和优化。

我们来看看云计算的分类 云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。

我觉得我们现在的系统分层多且繁杂,无法体现我们在IDC机房的运维,我认为IDC机房的运维应该根据服务提供的角度去对IDC机房进行维护,从终端角度来看,所有提供网络服务的资源都是一朵朵的网云。我们在IDC机房中的运维都是为了面向终端进行服务。所以说我们应该根据服务来对我们的IDC机房进行运维。

我根据云计算服务的分类认为我们在运维分层的问题上应该和云服务的分类相呼应来进行维护,所以我认为,IDC机房的运维应该分成:基础设施维护,耦合层维护,应用服务维护三个层面。

基础设施维护

基础设施维护顾名思义,指的是对设施设备的维护,包括设备的环境维护,设备的统计等等。在这个层面我们需要保证每一台机器是可以正常连接的,是可以正常使用对外提供服务的,并且我们得保障机器的正常运行并且是可管理的。总的来说基础设施层的维护是为了对耦合层的交付使用而服务的。

耦合层维护

在这个层面我们对设备有了统一的管理,在这个层面有系统性的架构统一的管理系统,指令系统,和监控系统,在这个层面我们可以发现底层的问题,并交由底层处理,并在这个层面保证应用服务的正常运行。在这个层面将会涉及负载均衡和备份等技术。

应用服务维护

在这个层面主要是客户对自己应用的维护,在这个层面里客户对自己运行的运营软件进行维护。

当然这个分层的维护只是个萌生概念,如果有一天这个理论可以被建立,相信会被更加的完善。并且为我们更好的理解运维体系服务。

三、运维工程师

在我之前有很多人都对运维工程师进行过很多定义,大家都说运维工程师是神仙,不是人干的活。因为运维工程师所承担的东西太多了,这让很多做运维工作的朋友们都表示伤不起啊。我们可以来看看以前别人是怎么来定义运维工程师的。

运维工作师需要什么样的技能及素质

做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统->网络->存储->协议->需求->开发->测试->安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统(基本操作系统的熟悉使用,*nix,windows..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server、db、中间件、存储等)、网络,IDC拓朴架构等等,但是我们知道每个人不肯能样样都很精通,每个人的知识层面不可能像水桶一样,我不否认这种人的处在,但是人的精力是有限的,一个人挖10口1米的井估计很难挖出水来,但是一个人挖一口10米的井我想挖出水的可能性还是很高的。所以说如果运维工程师通过分层运维将运维的知识面分开来进行突破,我想运维水平的提高指日可待,运维工程师的工作负担也会相应的减轻。

那么运维工程师在技能和个人素质方面需要什么要求呢?

我觉得在技能方面不需要过分去强求,只要懂得计算机的基本原理等计算机知识就可以,其他的个方面知识都可以通过后天的培养获得。

在个人素质方面应该具备以下几点:

个人素质方面:

1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。

2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。

3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器往往是全国各地,哪里便宜性价比高,就那往搬,进行大规模服务迁移(牵扯的服务器成百上千台),这是一个非常头痛的问题;往往时间非常紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力。

四、机房运维技术体系

在机房中我们要面对各种各样的事情,如服务器上架,服务器下架,处理问题服务器等等。在机房运维中我觉得也应该建立起我们的技术体系,从这几方面入手使得我们的机房运营的更加平稳健康。

1、监控体系,一个健壮的身体里不开每天的观察,我们需要时时刻刻观察我们的机房,看看机房发生的细小问题,所以说强大而有健全的监控体系有利于我们更好的维护我们的机房。

2、统计体系,在IDC机房我们管理着数以百计的服务器,统计工作可马虎不得,每一台机器的配置,存放位置等等,都关系着数千元的设备的物理安全,其他的还有带宽安全等等。数量少还好,数量一多就有可能出错,如何快速高效的统计,并不出错也是门技术。所以单独为一个体系也是有必要的。

3、故障管理体系,在机房中我们要处理每一台服务器发生的故障,有些问题很棘手,有些问题很简单,但大多数问题都有相似性,可以参考其他问题的处理过程处理,良好的故障管理体系肯定是有助于我们快速的响应和处理问题的。

4、自动化体系,太多的手动执行大大影响了我们处理问题的工作效率,机房运维引入自动化的理念开发自动化管理工具可以大幅度的提高我们机房的管理效率。

5、评估优化体系,正所谓人无完人,在好的东西也有不好的地方,如IPONG待机时间短,建立评估优化体系使得我们可以在定期的时间内发现我们不足的地方,更好的优化我们的不足之处

五、如何成为一个合格的运维工程师

我认为做好IDC机房的运维就是要保障最底层的运维维护安全。如何高效的维护好底层的设备是每一个IDC运维工程师应当具备的职责。我们可以做好以下几个方面。 第

一、统计记录好机房机器运行的信息。如上下架记录,故障处理记录,监控记录等等,做到高效快速的统计好所有机房信息。

第二、监控。熟悉和掌握监控软件的使用,做到可以更具监控工具的组合应用定位故障点,初步反应故障原因等。

第三、通过创新思维以及熟练操作提高并解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。以及熟悉每一个运维环节的操作。

第四、运维知识的积累与沉淀、文档的完备性。运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。并且可以在相似问题发生的情况下快速反应。

第五、有计划的做事;工作有计划,计划后想方设法达到目标,不找借口。机房运维工作大多都比较少,通常都是处理问题,但有很多事情是需要定期去做的,比如统计、评估、优化等等。

六、运维职业的迷惘、现状与发展前景

运维岗位不像其它岗位,如研发工程师、测试工程师等,有非常明确的职责定位及职业规划,比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了解一些,但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障),慢慢的大家就会迷惘,对职业发展产生困惑,为什么会有这种现象呢?除了职业本身特点外,主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现,但我发现运维更典型,更容易出现这个问题;针对这个问题我谈一下机房运维的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充)

运维现状:

1、处于刚起步的初级阶段,各大公司有此专职,但重视或重要承度不高,可替代性强;小公司更多是由其它岗位来兼顾做这一块工作,没有专职,也不可能做得深入

2、技术层次比较低;主要处于技术探索、积累阶段,没有型成体系化的理念、技术。

3、体力劳动偏大;这个问题主要与第二点有关系,很多事情还是依靠人力进行,没有完成好的提练。

发展前景:

2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

3、运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。

4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发控和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。

6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。

7、技术发展方向、网站/系统架构师。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:机关个人诚信公约下一篇:机关党委工作总结