作者:监控易 来源:美信时代 发布时间:2024-08-23
主播:监控易技术工程师 邢晓燕
大家下午好!非常高兴能在这个时间和大家一起相聚在我们的直播间。今天,我们主要介绍监控易的告警功能。监控易是一款模块比较多的监控软件,大家可以根据需求选用模块。告警系统只是其中的一个工具。这个工具集成了实时监控和告警通知的功能,能够帮助我们更快地进行故障定位
和性能优化。
一、直播主题:监控易告警体系概览
监控易运维管理系统能够实时地监控企业中的网络设备、服务器应用、数据库等关键的IT资源状态,以及一些性能指标。一旦发现异常,能及时触发告警机制,把故障信息及时通知给相关的管理人员,以便他们能快速响应和处理故障。
那么,为什么说现在的告警功能特别重要呢?随着企业业务的不断发展和IT系统的日益复杂,如何确保系统的稳定性和高效的运维成为了我们面临的一个重要挑战。而监控易的监控功能正好能够解决我们当前遇到的这个问题。
它能够通过智能告警的方式,内置一些算法,对监控数据进行深度学习,通过阈值的方式去做告警发现,实现故障的快速响应和减少故障的影响时间。
再者,我们支持多种告警通知方式,如邮件、短信、企业微信,还有声音告警等。运维人员可以根据自己的需求或实际的网络环境去选择通知方式,确保在第一时间能够接收到告警信息。同时,我们还提供知识库功能,当系统出现异常时,除了能够产生故障告警,还可以提供一些故障处理方案。
此外,我们还提供历史数据和趋势分析。系统能够保存大量的历史监控数据,并提供可视化的趋势图。运维人员可以直接通过趋势图和历史数据的列表,去了解系统的运行规律,以及是否有一些潜在的问题,为运维工作提供一些参考和依据。
二、告警监控的四大特点
接下来,我简单说一下我们告警监控的特点。
首先是实时性,监控易能够实时地去监控IT环境里面的各项资源,如服务器、数据库、物联网设备等。通过实时的数据采集和分析,能够发现潜在的问题或故障情况,确保运维人员能够在第一时间获取到这些关键信息。
其次是准确性,监控易主要是根据不同的设备和不同的监测类型去做合理的告警阈值设置。通过设置这些告警阈值和条件,系统能够减少误报和漏报的情况,提高故障的准确性和可靠性。这种准确性和可靠性有助于运营人员更精准地去定位问题,并及时采取相应的措施进行修复。
再者是灵活性,这主要体现在配置项丰富和具有自定义的功能上。用户可以根据自己的实际需求去做灵活的配置,不管是监测对象、告警策略还是告警规则,都可以自己去进行设置。同时,用户还可以根据自己的业务场景和需求,可以自定义配置的去做个性化设置。
最后是可拓展性,它主要体现在发送方式上。如果我们现在已有的发送方式、通知方式不满足需求,比如想跟其他的系统去做对接,把告警数据接到另外一个系统上,或者是把三方的数据在我们这个平台上去做统一的告警,这些都是可以的。我们提供接口,通过API的方式去做数据对接,能够完全支持跟其他的运维工具或系统去做集成和扩展,帮助实现更全面的监控和管理。
如上,我们的监控系统凭借实时性、准确性、灵活性和可扩展性这些核心的特点,能够帮助运维去做一些重要的工作。
三、监控告警功能详细介绍及操作演示
那下面我就详细介绍一下我们的功能,然后再结合我们的页面进行操作演示。
1、关于告警阈值
首先,我们要有阈值的概念。阈值会决定当前设备的状态。有的人可能会问,那你们这个平台是怎么知道它是不是有故障呢?故障有了之后你是怎么发现的呢?我们是依据危险阈值和故障阈值来进行判断的。
可以先去给它设定一个条件,比如说在什么样的情况下它才会产生告警,什么样的情况下它才是正常的。阈值有两种状态,一个是危险阈值,另一个是故障阈值。我们对监测点进行编辑操作,就可以去进行调整。
其次,在策略里面,它有一个列表,我们可以去进行选择。因为像CPU使用率或者是接口信息,它监控到的指标是非常多的,我们可以对其中的一个指标去做告警的条件设置,也可以对多个指标去做条件设置。
如果是多个的情况下,我们只需要点击后面的加号,然后它会生成新的一行,我们再去做选择就可以。而且这个条件,比如说我想要两个条件都满足,那我们就是“并且”的关系;如果是我们只想要满足其中一个,那我们就去选“或者”就可以。它也可以同时地去添加多个条件出来。
我们再来看接口的话,它也是一样的。我们默认会展示一些数据类型,因为我们现在能够监控到的数据类型很多,像服务器、硬件这些我们都是可以监控到的。我们系统是对每一个模板都会去内置一些告警条件,这是根据我们之前做过的项目以及这么久积累来的经验,去设置的相对来说比较稳定的值。
我们可以按照自己的需求去进行调整。可以看一下CPU使用率的监测点,我们设置的阈值是大于90%和95%的情况下它才会去产生故障告警,这个设备状态的变化也是一样的。我们去点击对应的编辑按钮,点击完了之后找到危险阈值,可以去改别的条件,比如查看它的空闲时间或者是系统的使用率,这些都是可以的。然后我们需要选择条件“大于等于”,然后再去选择对应的值就可以。
在设置故障阈值时,我可以对其名称和条件进行调整。首先,选择指标项,比如“已使用”,并可以设定具体数值,如90。接着,我设置条件,比如“不等于”,一旦满足这个条件,相应的状态就会变更。
如果需要为同类型的设备设置相同的阈值,不需要每次都进行修改,因为监控易提供了默认值功能。只需设置一次,之后添加的同类型设备都会自动继承这个模板。
比如,要为Linux agent的CPU设置阈值,当再添加一台Linux设备时,它会自动继承之前的模板,无需二次修改。如果已经添加了多台Linux设备,想要进行统一调整,可以选择这些设备,点击右侧的“监测”,然后全选监测点下的列表,点击“更多”按钮中的“编辑”。
编辑时,可以选择“编辑数据”,里面有两个条件,一个是“已勾选阈值”,比如当前勾选了3个,就只对这3个进行修改。如果选择“全部记录”,则会对Linux服务器下的所有监测点进行修改。接下来,选择要修改的内容,因为我们是设置告警,所以只选择阈值。
选择对应的页签后,会有三个步骤。首先是选择修改的类型,比如CPU。如果只想修改某一个阈值,比如危险阈值,就勾选危险阈值并调整其数值。如果想同时修改故障阈值,就再勾选故障阈值并进行调整。条件也可以修改,完成后点击确定,会有提示显示已经批量修改了多少条。再去查看时,阈值规则里的使用率就是刚刚修改过的。
2、关于告警展示
设备状态一共有五种,黄色和绿色代表正常设备,到达危险阈值和故障阈值的设备会分别显示为黄色和红色。设置完阈值规则后,平台会展示这些告警信息。如果想要从第三方工具接收到告警信息,我们可以使用专门的告警中心。
告警中心有告警总览,能帮助我们快速查看当前的告警数据,比如告警类型、统计信息、告警数量的级别、故障类型统计以及趋势统计。它还能展示当前正在产生告警的设备,并显示告警级别。告警级别共有七级,数字越小级别越高,这个级别也可以自定义设置。
在告警配置里,可以调整告警级别的名称和颜色标识。对于重要的设备,比如核心交换机或Oracle数据库,可以提高其告警级别。这可以在设备管理里进行调整,选择设备后点击编辑,然后在高级设置里修改告警级别并保存。
如果只想查看某一个监测点的告警信息,可以选择该监测点并单独进行编辑。这样主要是为了区分告警数据的紧急程度,帮助我们更好地判断哪些告警需要立即处理,哪些可以稍后处理。
在页面上,可以看到设备名称、最新的告警时间以及告警连续时长等信息。这样就能知道设备何时产生告警以及告警持续了多长时间。如果设备连接出现问题或接口出现故障,告警信息里会显示连接状态为连接失败,并可以通过告警来源快速查看具体设备的详情和历史数据。
最后,当告警来临时,可以通过操作链结合运维工单进行派发或受理。受理完告警后,它会转到已受理的状态,然后可以填写处理过程和方案并结束告警。
在告警信息页面,可以看到详情页,它主要展示了告警的详细信息。从左侧看,它展示了当前告警的级别,是紧急的还是一般的,以及一些基础信息,比如是哪个设备、哪个监测点出了问题,设备类型是什么,属于哪个组。
右侧则分为三个区域,上面展示了告警策略,就是对应的告警规则是什么;中间是告警发送记录,通过时间周期展示告警的产生情况,包括是否发送成功;下面是告警历史,展示该监测点之前产生过的告警消息及其恢复情况。
告警策略页签里,还能展示当前监测点的状态是故障的还是危险的。告警触发策略则主要限制了多久发送一次告警,这个我们稍后会详细讲解。同时,它还会有一个发送对象,能查看到告警是通过哪种方式发送给谁的,从而知道是否有人去处理这个问题,方便设备的故障和处理的追溯。
告警历史菜单则主要根据级别展示对应的趋势图,这里的内容跟之前差不多,但状态是之前产生过告警现在已经恢复了。它能提供告警追溯的位置,让我们查看到以前产生过哪些告警事件,这些事件的内容以及连续告警的时间。告警记录则详细记录了告警信息,包括邮件、声音等是否发送成功,方便故障排查。
3、关于告警配置
在告警配置里,最重要的就是告警发送策略。如果没有配置发送策略,就不会产生对应的告警。如要添加一个发送策略,点击右上角的“新增策略”,第一步是选择告警对象,并给策略一个名称,比如“告警测试”。然后选择对应的设备类型,默认选择“设备告警”即可。
在选择告警对象时,可以选择一个或多个,也可以按照资源组或设备类型两种方式进行展示和选择。比如直接选择所有的Linux服务器,或者按照部门分组只选择开发部门。同时,我们还可以设置一些过滤条件,只根据这些条件去选择告警对象。比如可以选择包含多种设备类型,也可以选择包含或不包含某些特定的设备或组。
选择完告警对象后,就是告警最核心的部分——触发策略。我们可以根据监测点的状态和级别去做选择,比如只查看故障的或选择全部。告警级别也可以根据设备的级别情况去做勾选。告警策略里分了两部分,一是多久发送一次告警,二是发完告警后是否停止发送,以及监测点恢复正常时是否发送恢复通知。这两个部分按需勾选即可。
主要看上面这两个设置,因为它们是互斥的,每次只能设置其中一个条件。第一个条件是当事件连续发生多少次时发送告警,这里我们会有一个采集时间,也就是执行间隔时间,可以自己调整。比如默认情况下,连接类的采集时间是50秒,接口、CPU、内存这些是2分钟。如果在这个时间间隔内事件连续发生两次,就会发送告警。但是如果中间有一次恢复正常了,那它就不是连续的,就不会发送告警。
这个设置主要是为了控制接收到重复告警的策略。第二个条件是设置一个周期,在多少分钟之内有几次同样的事件会发送告警,但这个的实时性没有上面的高,所以比较推荐用上面的条件。如果我们想每一次采集的时候都接收到状态,那也可以的,但可以通过设置连续发生的次数来限制告警的发送。
第二个条件是当已告警的监测点恢复正常时,是否发送恢复通知。如果勾选了这个条件,当监测点恢复正常时,就会自动发送一个恢复通知给我,这样我就不需要再登录平台去查看了。
4、关于告警发送方式
我们支持多种发送方式,但要结合实际的网络情况。因为很多单位都是内网环境,不允许连外网,所以能发送的方式就有限了。我们可以通过邮件、短信、声音等方式发送告警。邮件的话如果有内部邮件服务器就可以通过内网传输;短信则需要购买短信盒子或对接短信平台;声音告警则只需要有一个能播放声音的PC即可。
比如自己使用的笔记本,它与我们现在部署的环境处于同一个局域网内。在这个局域网下,首先需要安装我们的插件,否则无法进行通信。安装完插件后,需要设置对应的播放主机,包括写入其IP地址和端口,然后选择声音文件的路径,比如播放告警声音时选择哪首音乐,进行声音提示的配置,这部分配置相对简单。
此外,它除了支持声音播放,还能支持在页面上进行播放。对于页面播放,需要选择用户,根据实际告警的接收人员去选择对应的用户。当用户登录平台后,会直接弹出一个窗口,显示哪些设备产生了什么样的告警,可以直接从弹窗中看到这是声音告警。
再来说说工单,工单可以通过我们系统内置的轻量级工单系统来处理。我们可以选择工单的接收人,即使选择了接收经办人,如果他正在休假或没有上班,也可以结合考勤表对他进行告警规避,将告警发送给管理员。
对于其他方式,比如电话,需要购买电话卡,通过打电话的方式发送告警。在互联网环境下,前面提到的这些方式都是适用的。
如果用微信告警,需要关注我们的监控易公众号。公众号会提供一个ID,我们将这个ID写入对应位置即可。对于企业微信,也比较简单,只需要在企业微信上新建一个群聊,给群聊设置一个机器人,并输入机器人的Web hook地址,告警就会发送到我们创建的群聊里。
钉钉的设置方式与企业微信类似,也是通过机器人的方式,将对应的地址填写上来。选择完发送方式后,无论是钉钉还是企业微信,下面都会有两个模板供我们选择:一个是微信告警模板,另一个是告警模板和故障恢复模板。每次发送告警时都需要填写这些模板,类似于发邮件时需要填写邮件格式和内容。模板设置有一个专门的模块,告警模板分为邮件和短信两类。
对于企业微信模板的新增,需要输入名称、标题和内容。内容部分可以点击左下角的系统变量说明进行编写,其中包括公共参数、设备参数等。还可以展示监测点的故障阈值、当前告警的类型等信息。
日志告警和专线告警会涉及到其他两个模块,但设置方式类似。需要展示对应的设备信息、日志文件的内容、日志的来源以及匹配到的事件和规则等详情。在编写模板时,可以自由编辑文字部分,并添加提示语和分类信息,如故障详情、设备信息等。创建完成后,可以直接查看并根据样例调整模板内容。
配置完成后,无论是通过邮件还是其他方式发送告警时,收到的信息都会按照我们的要求进行展示,让我们能够更清楚地知道产生了什么样的故障以及详细的故障信息是什么。告警恢复模板的设置方式与告警模板类似。
5、关于告警策略
此外,还有告警升级的策略。如果产生的故障没有人响应,我们可以进行升级处理,让级别更高的人员进行处理。可以添加多个升级级别,并根据需要进行配置。
最后是一些配置信息,如果使用邮件方式,需要配置接收人和发件人的信息。包括给发件人设置一个名称、填写发件邮箱地址、选择使用的服务器(内网服务器或163、QQ等)并填写对应的端口和连接信息。收件人的配置方式类似,设置收件人名称并填写收件人邮箱地址即可。对于短信和电话方式的配置也很简单,只需要输入短信平台的地址和接口信息以及电话的URL即可。
这是我们的策略部分,其实这块内容相对有些专业。还有一种常见的场景,比如现在有一个网络设备,这个网络设备出了问题,那首先肯定是连不上了,连不上之后就没有办法去采集它底下的数据。这种情况下,所有的监测点都无法进行数据更新。
比如现在这个交换机有问题,连不上之后,它底下有33个指标,监控了33个点,那这33个点每次告警都要发33条,也就是说我要收到同一个设备的33条告警,可能更多。
为了解决这个问题,我们做了一个告警依赖,可以点击这个设备,查看它的设备详情。在告警依赖下面,可以选择一个关键的指标,比如PIN或者SMP连接,如果连不上了,PIN可能也会不通,对吧?然后我可以选择一个或者多个指标,也可以选择与哪些设备有关联。
比如只选一个PIN,如果我们设置的这个PIN不通了,那首先会把其他底下的监测点都调成静止的状态。然后会去产生告警,对这个PIN去产生告警。发出这个PIN的告警之后,其他的点就不会再对它进行重复的告警了,因为监控易直接把它给禁止掉了。这样我们接收到的告警数据就没有那么多了,避免了我们一直重复接收同一个设备的告警。
这个条件我们有两个选项,一个是正常,一个是错误,这个可以自己去选。但是一般情况下我们都会选择正常,就是等它错误的情况下,我们直接产生告警。也可以添加多个条件,然后可以根据关键字或者设备型号进行筛选。还可以添加设备名称,有两个组合条件可以帮我们快速找到这个设备。
5、关于告警查看
再有就是查看的方式,有人说那我怎么查看这些告警信息呢?其实我可以告诉大家,首先我们从告警中心里面找到正在告警的列表,因为这个里面是当前正在产生的告警。
我们可以通过邮件里头或者是我们接收到的告警来源去找到对应的IP或者监测点,然后进行模糊查询或者根据名称进行查询。查完之后它只会列出来对应的告警,然后我们就可以进行告警详情的查看。也可以通过告警来源对告警进行快速的查看。
第二个查看方式就是从设备管理这里进入。我们上面这几个颜色不是只为了让我们看对应的颜色有几个的,它们也是有筛选功能的。比如点这个对应的红色,其实能看出来这个它周围有这个微微的红色颜色,这个就是选中状态。
选中完了之后它会根据我们选中的条件去展示底下对应的设备。然后如果我们再去点一个“危险”,它可以把两个条件同时选出来。但是如果我们只想要看一个的话,那我们就把不想要看的去给它取消掉。
点进来之后我们可以到设备详情页面。首先我们会看到概览页,这个概览页我们主要看异常信息。它右侧有一个区域是异常信息的话,它会告诉我们。
首先它有一行这种小方块。这个小方块主要就是对应了我们的监测点。然后我们鼠标放上来之后它能展示我们的这个监测点的名称以及这个监测项下面它能够有哪些指标。比如这个流量监测我监测到了它的接收和发送能够接受我能够监测到的内容。然后它也是有颜色标识的我们去查看。
红色的就代表对应的设备是故障的,然后黄色的就代表它是对应的危险项的设备。然后它也会有统计说我们现在故障的有多少个、危险的有多少个、一共有多少个。那下面它也会有列表出来,它会优先展示故障的设备,然后如果是危险的设备它下面会有标识“危险项”,然后才会展示出来。
像这种就是CPU连接失败的情况,如果长得都是一样的情况下,我们主要就是看这个连接。这是因为agent连接失败了,我们连不上这个设备,因为它是通过agent方式进行监控的。首先这个端口是不通的,然后它连接失败才会有这个故障。那我们就能够从这一块进行排查了,它连接不上了我是不是要看看网络呀?然后我是不是要看看端口呀?
如果我们写了知识库的情况的话,那我们知识库也是可以做审核的。通过了才可以发布出来。比如说我们会积累了很多故障处理的方案,像SSH连接它异常了我们应该怎么做?然后服务器的这个Linux的端口我们应该怎么去查看?包括说我们这个平台license过期了我们应该怎么去解决?这些都有。
这个小方框,它就是跟我们的知识库去做了一个关联。比如我们展示这个CPU上,我们鼠标放上来它会告诉我们看;如果是超出了危险阈值,它这会提示我们当前值是多少了,然后我们就可以去查看,就会有对应的知识库出来。
如果你没有找到对应的知识库,那可能就是因为我们对这个agent连接失败的方案还没有。那这个时候我们在处理完这个问题之后,就需要去维护一下这个知识库了。我们把对应的我们这个Linux的agent失败或者说我们其他的故障信息去做知识的收集。如果收集完了之后,我们这块后期再有这个同样的故障出现的话,就可以去查看这个解决方案了。
再就是右侧的这个跳转按钮,我们去随机地去点,它就可以到详情页来。我们就能够对这个agent的连接进行查看,比如想要去看它的这个数据,或者是看它当前的这个设置的这些值是什么,都可以从这去进行查看。
我们还可以通过视图来看,点进来之后,我们会有这个仪表盘,左下角它会有未处理的告警,这块也可以查看,它是滚动播放的,我们鼠标放上来就会停止。比如交换机的这个接口出了问题,我就可以点击它,它就会跳到对应的这个告警的详情页出来。然后我们就是用刚刚的方法去进行查看就行。
再就是这个告警树,它也是可以去做跳转,能够快速地去跳转到我们正在告警的这个页面出来。如果说刚刚我们的这个agent连接出了问题,那如果我们把agent连接问题解决了之后,如果我们没有去手动干预的情况下,那我们就是要等它下一次自动采集的时候,它采集正常了,它自己就会自动恢复对应的状态了。
那如果说我们想要手动干预的情况下,首先我们可以对这个设备去做测试,我们直接去点击测试,然后让它更新最新的数据出来。然后也可以我们到设备详情里面来,我们找到这个对应的监测点,然后去对它去做设置,然后只对它的某一个点去进行最新数据更新,去对它重新采集。
它恢复之后他就会进行状态变更。因为之前也遇到过很多客户说我整个已经解决了,但是他为什么平台上还是有故障的标识啊?
那就是可能是他的数据没有更新。如果说是它数据已经更新了,它还是故障,那我们就要去查看是不是比如说这个CPU他当前的使用率确实是比较高了?它可能故障不是之前连接不上的故障了,可能确实是它的另外一个问题,然后导致的这个故障。所以我们还是要根据我们的这个值还有规则去看一下。
6、新功能:IT设备告警预测
下面,我再简短地介绍一下监控易的告警预测,这个是我们新做的一个功能。这个主要是我们通过我们内置的一些算法,新建这些模型。以它实现的效果举例,比如说有一段时间这个业务上面的服务器或者是一些数据库这些它经常性的出现故障,那这个时候就是可以通过我们这个预测,我们就能够知道根据它历史出现的这种故障数据,然后我们能够知道我们下一次它下一次产生故障大概是个什么时间,然后我们就可以提前的去做故障的预案出来,我们怎么样去避免这个问题?
四、直播结语
今天的分享我这块大概就是这些,主要是给大家去介绍监控易平台是怎么对设备进行告警的,以及告警规则的设置。看看咱们有没有什么问题,然后可以我帮大家解答一下,或者是有没有什么想要了解的?
大家可以关注一下“监控易”公众号,直接搜索我们软件的名称—“监控易”,关注我们的微信公众号和视频号。我们会经常发布运维行业短视频和产品动态信息。下一次直播的时间是9月19号,主题揭秘监控协议,阐释监控功能多样性,解读监控易使用的监控协议原理及流程。
今天关于监控易告警体系的直播,大概就是这些。如果大家错过本期直播,可以关注我们的视频号,每期直播都有回放。今天的直播就到此结束啦,谢谢大家!