Grafana的easyops_alert告警配置

目前针对所有手动部署的报警模块均配置在grafana的easyops_alert文件夹内。其中有以下类型的报警,分别如下:


service_alive_alert:即服务存活报警
hdfs_alert:即相关的hdfs指标报警
yarn_alert:即相关的yarn指标报警
node_alert:即相关节点指标报警

service_alive_alert

即服务存活报警。目前已有模板(见附件)如下:


Impala
Hbase
Zookeeper
Spark_History
Mammut Web
Azkaban
Mysql
Hive

目前对于服务存活的查询语句,均使用的为absent()函数,此函数需要注意如下:
如果服务死亡,则dashboard中会显示该服务,值为1;如果服务正常,dashboard中不会显示数据

配置方法参考《如何使用Grafana配置报警》

hdfs_alert

相关的指标报警,目前已有模板(见附件)如下:


集群存储空间使用率
non dfs使用空间
集群连接数
Num missing blocks
Num dead datanodes
Volume failures total
Num decommissioning datanode
NN alive alert

non dfs和集群连接数的报警,暂未设置,需要业务方根据自身的情况自行设置
NN alive alert的报警,配置规则和“service_alive_alert”一致,在此不进行相关的介绍
其他模块的报警,仅需注意、修改以下几点:

Generated


需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。

yarn_alert

yarn相关的报警指标,目前已有模板(见附件)如下:


各队列资源使用百分比
Num shutdown NMs
Num lost NMs
Num unhealthy NMs
Num Decommissioning NMs
RM alive Alert

各队列资源使用百分比的报警,暂未设置,需要业务方根据自身的情况自行设置
RM alive alert的报警,配置规则和“service_alive_alert”一致,在此不进行相关的介绍
其他模块的报警,仅需注意、修改以下几点:

Generated


需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。

node_alert

节点相关指标报警,目前已有模板(见附件)如下:


系统平均负载
磁盘util
网络流量
分时磁盘使用率
CPU使用率
内存使用率

系统平均负载的报警,暂未设置,需要业务方根据自身的情况自行设置
其他模块的报警,仅需注意、修改以下几点:

Generated


需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。