如何使用Grafana配置服务存活报警

此文档为报警配置的详解文档,后续如果有相关自定义的报警需求,可以根据文档要求进行相关配置。

1. Query页面,添加如下:

Generated

query页面为添加的查询语句,具体语句根据实际需求从具体的dashboard获取

需添加上图中红框3“host_name”相关标签,值为此服务的此组件所在的机器。 此值的作用是后续grafana报警时,报警信息会附带此节点。

注:

针对grafana报警,所有字段均需指定,不能使用变量!

2. Alert页面,添加如下:

Generated

l 红框2,为报警的计算频次,默认是每1分钟计算一次,持续2分钟如果满足条件即报警

l 红框3,为报警条件的计算函数

l 红框4,A为页面1中的红框2,标识是哪句查询;2m以及后续的now为计算的时间

l 红框5,为报警计算的规则

l 红框6,为具体的报警发送人,以及报警文本,需要自行配置

注意:

如页面1中出现多条查询语句时(表明此服务的此组件部署了多个节点),则需要在每条查询语句中分别添加对应的红框3的内容。

如页面1中出现多条查询语句,则在页面2中需要在如下配置项中配置多个:

Generated

红框中更改为“OR”,query中的选择的查询标识为对应的查询标识,其他的设置和上个条件语句一致 Azkaban Web服务只有1个节点能对外服务,报警配置中只需修改页面2的红框6