超大规模带来的性能要求
园区内监控对象的品牌、型号、协议类型繁多,且设备数量多。一旦数据量达到规模级别之后,就会出现各式各样的问题。
稳定性可靠性要求(宕机频繁)
由于数据量比较大,监控系统在运行的时候,任何一个节点一旦出现阻塞都是致命的。如果没有方便可靠的监控报警平台,对于运维人员而言犹如噩梦。
无法满足监控水平和垂直扩展需求
随着业务的拓展和延伸,以及不同管控要求,监控系统需要不断提高水平和垂直扩展需求。
自主研发针对海量监测需求的数据库
海量监控数据:分布式架构+非结构化存储=水平扩张;高性能:分布式存储与高并发访问带来性能的飞跃;敏捷开发:所见即所得。
64位缓存设计
监控数据先写入缓存,再定时写入数据库磁盘,减少写入压力。64位缓存寻址,足以支撑单台服务器监测上万监测指标。
高可靠性
动态负载均衡,服务器根据数量和计算能力动态承担监测任务;可靠双机热备,两台主服务器组成“主”-“备”模式;多机容灾备份。
灵活+高可扩展性
采用云模式从多个容器采集数据,实现了本地采集+云端管理模式,多园区的统一管理控制台部署在一台阿里云主机上。
业务引领
对园区基础设施进行巡查、监测、预警、分析、评价、 服务的全周期管理,解决园区业务综合管理难问题。
技术驱动
通过提供监控基础技术能力平台,支持园区高效建立基础设施监控和运维管理能力。
降本增效
通过灵活的部署模式和高性能的数据采集分析能力,整体降低资金成本。
自动化运维
运维管理从脚本化升级到自动化,实现所有设备秒级轮询。自动预警告警,故障快速定位,保障 IT系统支持的各项业务更加稳定地运行。