概述
网游行业是一个非常有特色的行业,服务器规模大,一般公司通常是几百台服务器,大公司几千台甚至上万台。而且服务器分布在全国各地不同的IDC机房,每个IDC机房中有多个游戏集群。因此对服务器监控软件要求非常高,要求监控软件能够稳定可靠得实时监控上千台服务器,并可随着服务器的增加线性扩容。
美信公司的云网管解决方案CreCloud是网游行业理想的服务器监控解决方案,它的线性扩容功能、多机容灾备份功能保证7*24小时不间断的大规模监控的稳定性和高效性。
项目背景
奇梦公司是一家国内网络游戏公司,通过800多台服务器保障多款网络游戏和网页游戏的高效运行,服务于玩家。服务器部署在北京、上海、广州等城市的IDC机房,在每个IDC机房里,根据游戏建立了不同的集群。他们希望能够采购这样一套服务器监控软件:
● 线性扩容
目前服务器量是800多台,但是随着公司规模的扩大,游戏种类的增加,服务器数量会迅速增加,年底有可能就是1000多台。他们希望产品能随着服务器数量的增加线性扩容,不要重新部署监控软件。
● 统一管理
虽然监控规模很大,但是希望在一套监控平台完成配置监控、报警、报告、用户权限等功能。
● 容灾备份
由于游戏服务器非常重要,希望监控软件具有容灾功能,保证7*24小时不间断监测。
方案特色
美信云网管CreCloud解决方案是一套完整的大规模服务器监测解决方案。针对游戏公司的要求,采用了分布式部署方案解决客户问题,完全满足了客户需求。
多机容灾部署方案
CreCloud部署在七台服务器上,二台CCU(中央控制单元),四台监测服务器。主CCU的主要工作将游戏服务器的监测要求下发到4台监测服务器上,并监视监测服务器的运行状况。如果某台监测服务器出现故障,马上将该监测服务器的监控内容分发到其他的监测服务器上。 另外一台CCU是备份CCU服务器,一旦主CCU服务器出现故障,马上接管整个系统。 监测服务器主要负责完成真正的监测任务,根据CCU的指令监测游戏服务器。
监控内容
● 集群监控
游戏公司对一个机房里的多台服务器做集群来支持某款游戏。通过美信的超级代理功能能够很好的完成集群内服务器监测任务。
● 服务器常用指标监测
游戏服务器主要是Windows和Linux服务器,通过美信公司的Agent监测服务器的CPU、物理内存、虚拟内存、进程、服务、端口,最占用CPU的前5个进程、最占用内存的前5个进程等。
● 流量监测
通过对服务器的流量监测,可以分析一款游戏的流量,带宽占用情况,当流量快达到购买带宽时及时报警。
● 数据库监测
该客户采用的主要是MySql数据库,我们对MySql的可用性、并发用户数、状态等多种性能指标进行监测。
● 数据库自定义监测
美信的数据库自定义模块允许用户自定义SQL语句,生成监测器,监测数据库的指定字段,帮助用户DIY监测指标。
● 游戏业务监控
由于美信Agent的插件设计模式具有良好的扩展性,在游戏公司的配合下,美信公司开发了游戏业务监控插件,可以监控游戏的并发用户、异常操作等指标。
● Web服务器监测
监测Apache、TomCat的Web可用性、响应时间、并发用户数等。
● Squid反向代理监测
监测Squid的可用性、CPU、内存、Cache命中率、Cache错误等指标。
收益
通过美信云网管CreCloud的部署,奇梦公司可以从一个监控平台完整了解到整个系统的运行状况,当服务器出现故障时及时得到报警,分析每款游戏占用的资源情况,从而调整游戏服务器的数量、带宽。从而提高了玩家满意度,获得良好收益。