制造业是现代工业的基石。在《中国工业4.0》战略实施后,开始从工业化到智能化的演变,“制造业数字化、网络化、智能化”被定义为新工业革命技术的核心;2020年政府工作报告提出,推动制造业升级和新兴产业发展,发展工业互联网,推进智能制造……先进制造业意味着制造业的智能化,因此,中国的制造企业不断进行着数字化转型升级的探索与尝试。
随着企业数字化转型的加快,信息技术与工业化的深度融合,数据与业务越来越复杂,企业各条业务链路的正常运行越来越依赖于IT的支撑,规模庞大的 IT 基础设施及应用系统则成为了大中型制造企业的标配。而“安全”保障则成为工业4.0的强劲的后盾!如果企业生产与运营没有安全保障,智能制造便无从谈起。正如消防系统守护着高楼大厦一样,全面的、规范化的运维保障体系则成为制造业智能化之路上的守护者。
基于此,监控易通过对制造企业IT基础设施及应用的结构和特点进行专业性研究与诊断,在符合国家制定等保2.0政策和国产化趋势的全面要求下,推出制造业IT基础设施监控一体化管理平台,以智能化、自动化的技术手段帮助制造企业运维管理目标的有效落地。
以下为监控易服务宁波钢铁有限公司案例:
一、案例背景
宁波钢铁有限公司概况
▪️宁波钢铁有限公司(简称宁钢)是杭钢集团公司下属杭州钢铁股份有限公司的全资子公司。宁钢是一家从原料到炼铁、炼钢、连铸、热轧等工序配套齐全、生产装备水平国内领先的大型钢铁联合企业。宁钢以钢铁主业为平台,科学谋划宁钢优势业务发展,先后在贸易、信息科技、循环经济和物流等业务领域取得较好发展成果
▪️为支持各项业务系统,宁钢建立了主机房(分为内网区、外网区)、ERP机房、安保机房、炼钢机房、管控机房、数据库机房、原料厂机房、水处理机房、五丰塘电信机房、五丰塘通讯机房等多处机房,管理包括ERP系统、OA系统、电子商务系统、炼钢排程、文档系统、微信系统、福利系统等多个业务系统。宁波钢铁需要将各个机房中管理所有业务的各类软硬件 IT 设备进行统一监控,并接入之前部署的动环系统
二、企业面临的挑战
1、多机房统一管理,需要针对性的架构设计
▪️主机房(分为内网区、外网区)、ERP机房、安保机房、炼钢机房、管控机房、数据库机房、原料厂机房、水处理机房、五丰塘电信机房、五丰塘通讯机房等多处机房
▪️这些机房需要监控各自机房内的设备,及监控机房之间的网络访问状况
▪️该需求属于典型的分布式监控,集中管理,如系统对此缺少针对性的架构设计,将造成统一管理端的极大数据写入压力和网络带宽压力。
2、为保证业务运行,要求几分钟内发现故障,人工巡检无法满足要求
▪️IT 设备支撑 ERP系统、OA系统、电子商务系统、炼钢排程、文档系统、微信系统、福利系统等多个重要系统
▪️这些系统关系着宁钢的生产、运输、财务、办公等重要管理过程
▪️由于设备数量多、类型多、机房多,人工巡检全部设备需要几个小时的时间,而且无法保证7*24巡检
▪️宁钢希望无论任何设备产生故障,几分钟内即可发现故障,重要设备2分钟内发现故障,一些重要问题30秒内即可发现,这是人工巡检无法达到的要求
3、多品牌多型号多类型设备监控,需要系统监控支持范围广
▪️宁波钢铁需要监控设备包括服务器硬件、操作系统、数据库、中间件、网络设备、存储设备
▪️每类设备包括多个厂商、型号产品
▪️因监控指标要求,操作系统监控本身又需要采用SNMP、SSH、Agent 等不同方式
4、需要实现IT 与动环的一体化监控
▪️原有一套动环管理系统,但界面功能设计,告警设计不能满足管理需求
▪️原来的系统只能监控动环,不能监控IT 设备
▪️希望实现一个平台统一监控,避免多平台登录,便于管理
▪️原有动环系统部署在与其它IT设备所在的网络不能互通,实现统一监控,需要解决从动环系统所在的网络获取数据的问题
三、监控易解决方案
1、宁波钢铁 IT 监控总体架构
2、部署架构设计
3、全局/分类数据展示
▪️监控设备
▪️全局数据展示
▪️分类数据展示
4、历史数据分析,自动巡检,发现设备隐患
▪️通过设备历史数据分析报告和图表 ,设备指标性能比较图表,发现性能异常的设备
▪️告警数据分析,发现经常出现问题的设备或链路
▪️定期自动执行设备巡检,并输出报告,及时发现异常指标
5、全面监控业务设备及访问,保障业务连续运行
▪️对部署业务系统的服务器,监控其CPU、内存、网卡等指标,保证服务器正常运行
▪️对服务器与业务相关的服务、进程、文件进行监控,及时发现业务问题
▪️监控业务数据库运行状态、特定数据库语句,发现数据访问问题
▪️监控业务Web访问使用的中间件,发现访问性能问题
6、历史数据分析,自动巡检,发现设备隐患
▪️对各类设备提供准确预警、告警
▪️告警定向发送,运维人员只收到自己负责的设备或链路相关的告警
▪️告警模版中可以添加变量,定位故障
四、客户收益
1、实现多机房IT 和动环的统一监控,提高管理效率
2、故障发现从几小时提高到几分钟,保障业务顺畅运行
▪️全部设备巡检一次,时间从人工巡检的几小时,到2分钟
▪️关键指标10秒轮询一次
▪️采用告警优化与压缩机制,去除误报与重复告警
▪️实现了运维人员从被动解决到主动发现问题的转变,快速解决问题,保障业务顺畅运行
3、提供全局数据,帮助领导决策
▪️提供了对各个机房的统一管理
▪️领导可以看到所有IT资源的整体使用情况
▪️可辅助领导决策未来IT资源分配、运维资源分配