夜莺报警

阅读此说明,你将了解easyops告警使用方式,快速接入并使用该功能

一、关于告警模块

1.1 使用夜莺+prometheus 监控告警

prometheus负责监控数据采集

夜莺负责通过promql 查询prometheus 进行告警

1.2 新增功能

相比之前grafana 新增了以下功能
新增告警列表导入导出
新增告警屏蔽
新增easyops 管理组件中台监控

二、基本功能

目前告警模块支持的功能

2.1 监控看图

2.1.1即时查询

解决以下问题:

检查某个监控数据是否在正常上报

测试promql,测试好的promql用于配置告警规则

生产环境故障,临时查一些监控指标的数据

Generated

2.2 告警管理

分为2个规则的管理:告警规则、屏蔽规则;活跃告警和历史告警的展示;

2.2.1 告警规则

新增告警规则

基本配置

规则标题

规则备注:未来发送告警消息的时候,会把备注信息带上

告警级别:默认分了3个级别

生效集群:告警规则具体是生效到哪个集群,目前只支持单个集群

promql:

执行频率:每隔15秒,把PromQL作为查询条件,去查询后端存储,如果查到了数据就表示当次有监控数据触发了规则

持续时长:通常持续时长大于执行频率,在持续时长内按照执行频率多次执行PromQL查询,每次都触发才生成告警;如果持续时长置为0,表示只要有一次PromQL查询触发阈值,就生成告警

附加标签:未来发送告警消息的时候,会把附加标签带上

预案链接:每一条触发的告警,都应该对应一个预案,这是最佳实践,所以告警规则里可以指定预案链接,发送告警消息的时候也可以带上

Generated

生效配置

立即启用

生效时间

Generated

通知配置

通知媒介:配置告警发送的时候是发邮件、还是发钉钉、发企业微信等

告警接收组:告警接收以组为单位,告警人员接受告警需添加至对应告警组

启用恢复通知:告警恢复时发送通知

留观时长:告警恢复多长时间内正常才认为告警恢复

重复发送频率:即通道静默时间,告警发出之后,如果一直没有恢复,过xx时间之后,会重复通知

回调地址:可以配置多个webhook地址,告警之后,会依次调用,POST方式,把告警事件内容序列化为JSON,放到POST Body中,webhook对应的逻辑就可以从中解析出告警事件,做一些自动化处理逻辑

Generated

告警规则导入

告警导入

点击 告警规则 更多操作 导入告警规则

Generated

复制告警json 到入至告警平台

Generated

导入完成后的状态

Generated

2.2.2 屏蔽规则

屏蔽规则,是针对告警事件的,大家在生成的告警事件中可以看到每个事件有很多标签,屏蔽规则就是针对这些标签配置过滤规则,满足过滤规则的,就不生成告警事件了。

比如,我想屏蔽所有设备失联的告警,把标签key配置为:__name__,运算符:==,标签value:target_up即可。运算符=~表示正则,针对标签value,可以填写正则表达式,匹配一批的告警事件。运算符in表示数组包含的关系,即value可以配置多个。

Generated

2.2.3 活跃告警

活跃告警,即当前未恢复的告警,这个信息很关键,通常每天都要巡检,时刻关注。

2.2.4 历史告警

历史告警,就是所有历史告警,包括报警消息和恢复消息,算是一个存档。

2.3 人员组织

2.3.1 用户管理

邮箱服务器配置参考2-2 EasyOps n9e 告警模块部署

目前支持 告警通道如下:

邮箱

企业微信机器人

钉钉机器人

飞书机器人

在添加用户添加相关信息即可

Generated

2.3.2 团队管理

告警接收团队