基于开源软件zabbix监控系统的应用研究

2023-02-23

随着高校信息化的发展, 学校的IT规模越来越大, 系统也越来越复杂, 信息中心运维人员的压力也越来越大。运维人员迫切希望在系统崩溃或者服务不可用的时候, 能够第一时间得到通知, 精准定位故障, 并对故障快速响应, 而不是被动等待用户通过各种途径反馈。

一、学院IT运维现状

学院数据中心各类物理机和虚拟化服务器计150余台, 交换机等网络设备100余台, 支撑学院办公, 教学, 科研, 安管, 后勤等上百个业务系统及网站, 业务复杂, 出现故障后人工排查困难, 工作枯燥繁琐、异常忙碌。运维人员频于处理各种bug, 经常因不能及时处理故障, 遭到师生的抱怨, 极大地影响了用户对学院信息化建设的认同感和体验。基于此, 自动化的运维工具的需求就呼之欲出。基本需求如下: (1) 对系统不间断实时监控, 实时反馈系统当前状态; (2) 监控视图呈现系统状态; (3) 有数据统计分析功能; (4) 支持多维化报警功能; (5) 开源, 支持二次开发。在经过大量的调研和试用后, 最终选择了zabbix作为我们的运维监控平台。

二、基于zabbix开源架构的自动化运维监控平台介绍

(一) zabbix介绍

Zabbix是一个高度集成的企业级开源网络监控解决方案, 提供分布式监控以及集中的WEB管理界面。被监控对象只要支持SNMP协议或者运行Zabbix_agents即可。Zabbix具备创建商业监控软件所具备的功能, 例如主机性能监控、网络设备性能监控、数据库性能监控、ftp等通用协议的监控, 能够利用灵活的可定制警告机制, 允许用户对事件发送基于E-mail的警告, 保证相关维护人员对问题做出快速解决, 还可以利用存储数据提供杰出的报表及实时的图形化数据处理, 实现对Linux、Windows主机的7*24小时集中监控。监控的项目可以包括CPU、内存、磁盘、网卡流量、服务可用性等各种资源。zabbix由以下几个组件部分构成:

(1) Zabbix Server:负责接收agent发送的报告信息的核心组件, 所有配置, 统计数据及操作数据均由其组织进行;

(2) Database Storage:专用于存储所有配置信息, 以及由zabbix收集的数据;

(3) Web interface:zabbix的GUI接口, 通常与Server运行在同一台主机上;

(4) Proxy:可选组件, 常用于分布监控环境中, 代理Server收集部分被监控端的监控数据并统一发往Server端;

(5) Agent:部署在被监控主机上, 负责收集本地数据并发往Server端或Proxy端;

(二) Zabbix监控系统运行的流程如下

agentd需要安装到被监控的主机上, 它负责定期收集各项数据, 并发送到zabbix server端, zabbix server将数据存储到数据库中, zabbix web根据数据在前端进行展现和绘图。这里agentd收集数据分为主动和被动两种模式:

主动:agent请求server获取主动的监控项列表, 并主动将监控项内需要检测的数据提交给server/proxy

被动:server向agent请求获取监控项的数据, agent返回数据。

(三) Zabbix报警流程

Zabbix中告警是由一系列的流程组成, 首先触发器达到阈值, 接下来是Action对事件信息处理, 其中包括两个部分, 第一发送消息, 即将告警发送给用户, 第二部分是执行命令, 即将事件命令进行处理, 达到对事件故障自动尝试恢复的效果。

在实际生产使用的时候, Items、Trigger、Graph采用模板来进行监控, 模板特点就是可以重复地完成相同的事情, 修改了模板等于修改了所有调用此模板主机的配置。Graph不是必需的, 因为没有配置图形, 数据获取并不影响, 获取数据是Items的功能。但是对于使用Zabbix Web界面用户来说, 没有图形等于没有数据, 因此重要的Items必须添加必要的图形以做可视化展示。如果想集中查看图形, 可以通过screen功能。

三、zabbix部署及应用

Zabbix部署分为两个部分, server端和agent端。其中server端的部署流程为: (1) 安装lnmp环境; (2) 安装zabbix依赖; (3) 安装zabbix server; (4) 修改zabbix sever默认配置 (5) 安装zabbix server web界面; (6) 安装配置zabbix agentd端; (7) zabbix server web端添加主机; (8) 配置邮件告警。

四、实现的效果

目前学院的所有服务器、应用系统、交换机等网络设备均已接入zabbix监控中, 取得了较好的监控效果, 每当服务宕机或者不可用的时候, zabbix均能第一时间通过邮件告警, 及时的通知系统管理员, 及时修复, 缩短了响应时间。部署至今我们一共处理了近2200多次的有效报警信息。

五、结语

南京信息职业技术学院基于zabbix的运维监控平台, 实现了对数据中心机房服务器, 应用, 交换机等网络设备的统一监控和管理, 让运维人员能够快速定位并解决问题, 降低了运维的难度和风险, 提升了学院IT系统的信息服务质量, 具有非常好的应用前景。在今后的工作中, 还将进一步拓展监控系统, 进行深度二次开发, 能够对出现故障的业务进行自动恢复, 实现自动化运维。

摘要:随着高校信息化建设的不断发展, 传统的被动式响应方式, 已不能满足需求, 影响了师生对学院信息化建设的认同感和体验。本文介绍了一种自动化开源运维监控系统Zabbix, 首先介绍了Zabbix组件、监控流程以及报警流程, 然后, 通过对Zabbix的应用研究, 将学院主要IT设备和核心业务系统进行监控, 取得了较好的监控效果。

关键词:开源软件,zabbix,监控系统

参考文献

[1] 程雪松.基于Zabbix的医院自动化运维监控平台的设计与应用[J].福建电脑, 2018, 34 (9) :126-127.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:新会计制度下财务管理模式论文下一篇:基于行动导向的高校计算机公共基础课程改革