夜莺报警

    阅读此说明,你将了解easyops告警使用方式,快速接入并使用该功能

    一、关于告警模块

    1.1 使用夜莺+prometheus 监控告警

    prometheus负责监控数据采集

    夜莺负责通过promql 查询prometheus 进行告警

    1.2 新增功能

    相比之前grafana 新增了以下功能
    新增告警列表导入导出
    新增告警屏蔽
    新增easyops 管理组件中台监控

    二、基本功能

    目前告警模块支持的功能

    2.1 监控看图

    2.1.1即时查询

    解决以下问题:

    检查某个监控数据是否在正常上报

    测试promql,测试好的promql用于配置告警规则

    生产环境故障,临时查一些监控指标的数据

    Generated

    2.2 告警管理

    分为2个规则的管理:告警规则、屏蔽规则;活跃告警和历史告警的展示;

    2.2.1 告警规则

    新增告警规则

    基本配置

    规则标题

    规则备注:未来发送告警消息的时候,会把备注信息带上

    告警级别:默认分了3个级别

    生效集群:告警规则具体是生效到哪个集群,目前只支持单个集群

    promql:

    执行频率:每隔15秒,把PromQL作为查询条件,去查询后端存储,如果查到了数据就表示当次有监控数据触发了规则

    持续时长:通常持续时长大于执行频率,在持续时长内按照执行频率多次执行PromQL查询,每次都触发才生成告警;如果持续时长置为0,表示只要有一次PromQL查询触发阈值,就生成告警

    附加标签:未来发送告警消息的时候,会把附加标签带上

    预案链接:每一条触发的告警,都应该对应一个预案,这是最佳实践,所以告警规则里可以指定预案链接,发送告警消息的时候也可以带上

    Generated

    生效配置

    立即启用

    生效时间

    Generated

    通知配置

    通知媒介:配置告警发送的时候是发邮件、还是发钉钉、发企业微信等

    告警接收组:告警接收以组为单位,告警人员接受告警需添加至对应告警组

    启用恢复通知:告警恢复时发送通知

    留观时长:告警恢复多长时间内正常才认为告警恢复

    重复发送频率:即通道静默时间,告警发出之后,如果一直没有恢复,过xx时间之后,会重复通知

    回调地址:可以配置多个webhook地址,告警之后,会依次调用,POST方式,把告警事件内容序列化为JSON,放到POST Body中,webhook对应的逻辑就可以从中解析出告警事件,做一些自动化处理逻辑

    Generated

    告警规则导入

    告警导入

    点击 告警规则 更多操作 导入告警规则

    Generated

    复制告警json 到入至告警平台

    Generated

    导入完成后的状态

    Generated

    2.2.2 屏蔽规则

    屏蔽规则,是针对告警事件的,大家在生成的告警事件中可以看到每个事件有很多标签,屏蔽规则就是针对这些标签配置过滤规则,满足过滤规则的,就不生成告警事件了。

    比如,我想屏蔽所有设备失联的告警,把标签key配置为:__name__,运算符:==,标签value:target_up即可。运算符=~表示正则,针对标签value,可以填写正则表达式,匹配一批的告警事件。运算符in表示数组包含的关系,即value可以配置多个。

    Generated

    2.2.3 活跃告警

    活跃告警,即当前未恢复的告警,这个信息很关键,通常每天都要巡检,时刻关注。

    2.2.4 历史告警

    历史告警,就是所有历史告警,包括报警消息和恢复消息,算是一个存档。

    2.3 人员组织

    2.3.1 用户管理

    邮箱服务器配置参考2-2 EasyOps n9e 告警模块部署

    目前支持 告警通道如下:

    邮箱

    企业微信机器人

    钉钉机器人

    飞书机器人

    在添加用户添加相关信息即可

    Generated

    2.3.2 团队管理

    告警接收团队