6.1 夜莺报警配置
夜莺报警
阅读此说明,你将了解easyops告警使用方式,快速接入并使用该功能
一、关于告警模块
1.1 使用夜莺+prometheus 监控告警
prometheus负责监控数据采集
夜莺负责通过promql 查询prometheus 进行告警
1.2 新增功能
相比之前grafana 新增了以下功能 新增告警列表导入导出 新增告警屏蔽 新增easyops 管理组件中台监控 |
---|
二、基本功能
目前告警模块支持的功能
2.1 监控看图
2.1.1即时查询
解决以下问题:
检查某个监控数据是否在正常上报
测试promql,测试好的promql用于配置告警规则
生产环境故障,临时查一些监控指标的数据
2.2 告警管理
分为2个规则的管理:告警规则、屏蔽规则;活跃告警和历史告警的展示;
2.2.1 告警规则
新增告警规则
基本配置
规则标题
规则备注:未来发送告警消息的时候,会把备注信息带上
告警级别:默认分了3个级别
生效集群:告警规则具体是生效到哪个集群,目前只支持单个集群
promql:
执行频率:每隔15秒,把PromQL作为查询条件,去查询后端存储,如果查到了数据就表示当次有监控数据触发了规则
持续时长:通常持续时长大于执行频率,在持续时长内按照执行频率多次执行PromQL查询,每次都触发才生成告警;如果持续时长置为0,表示只要有一次PromQL查询触发阈值,就生成告警
附加标签:未来发送告警消息的时候,会把附加标签带上
预案链接:每一条触发的告警,都应该对应一个预案,这是最佳实践,所以告警规则里可以指定预案链接,发送告警消息的时候也可以带上
生效配置
立即启用
生效时间
通知配置
通知媒介:配置告警发送的时候是发邮件、还是发钉钉、发企业微信等
告警接收组:告警接收以组为单位,告警人员接受告警需添加至对应告警组
启用恢复通知:告警恢复时发送通知
留观时长:告警恢复多长时间内正常才认为告警恢复
重复发送频率:即通道静默时间,告警发出之后,如果一直没有恢复,过xx时间之后,会重复通知
回调地址:可以配置多个webhook地址,告警之后,会依次调用,POST方式,把告警事件内容序列化为JSON,放到POST Body中,webhook对应的逻辑就可以从中解析出告警事件,做一些自动化处理逻辑
告警规则导入
告警导入
点击 告警规则 更多操作 导入告警规则
复制告警json 到入至告警平台
导入完成后的状态
2.2.2 屏蔽规则
屏蔽规则,是针对告警事件的,大家在生成的告警事件中可以看到每个事件有很多标签,屏蔽规则就是针对这些标签配置过滤规则,满足过滤规则的,就不生成告警事件了。
比如,我想屏蔽所有设备失联的告警,把标签key配置为:__name__,运算符:==,标签value:target_up即可。运算符=~表示正则,针对标签value,可以填写正则表达式,匹配一批的告警事件。运算符in表示数组包含的关系,即value可以配置多个。
2.2.3 活跃告警
活跃告警,即当前未恢复的告警,这个信息很关键,通常每天都要巡检,时刻关注。
2.2.4 历史告警
历史告警,就是所有历史告警,包括报警消息和恢复消息,算是一个存档。
2.3 人员组织
2.3.1 用户管理
邮箱服务器配置参考2-2 EasyOps n9e 告警模块部署
目前支持 告警通道如下:
邮箱
企业微信机器人
钉钉机器人
飞书机器人
在添加用户添加相关信息即可
2.3.2 团队管理
告警接收团队
以上内容对您是否有帮助?