4.2 告警配置 - Grafana的easyops_alert告警配置

Grafana的easyops_alert告警配置

更新时间: 2021-12-05 21:38:40 | 阅读 1087

扫码

复制

导出

Grafana的easyops_alert告警配置

目前针对所有手动部署的报警模块均配置在grafana的easyops_alert文件夹内。其中有以下类型的报警，分别如下：

service_alive_alert：即服务存活报警 hdfs_alert：即相关的hdfs指标报警 yarn_alert：即相关的yarn指标报警 node_alert：即相关节点指标报警

service_alive_alert

即服务存活报警。目前已有模板（见附件）如下：

Impala Hbase Zookeeper Spark_History Mammut Web Azkaban Mysql Hive 目前对于服务存活的查询语句，均使用的为absent()函数，此函数需要注意如下：如果服务死亡，则dashboard中会显示该服务，值为1；如果服务正常，dashboard中不会显示数据

配置方法参考《如何使用Grafana配置报警》

hdfs_alert

相关的指标报警，目前已有模板（见附件）如下：

集群存储空间使用率
non dfs使用空间
集群连接数
Num missing blocks
Num dead datanodes
Volume failures total
Num decommissioning datanode
NN alive alert

non dfs和集群连接数的报警，暂未设置，需要业务方根据自身的情况自行设置
NN alive alert的报警，配置规则和“service_alive_alert”一致，在此不进行相关的介绍
其他模块的报警，仅需注意、修改以下几点：

需要根据业务方的实际环境，配置红框2中的报警的条件以及阈值（可以使用模板默认值）以及红框3。其他均无需更改。

yarn_alert

yarn相关的报警指标，目前已有模板（见附件）如下：

各队列资源使用百分比 Num shutdown NMs Num lost NMs Num unhealthy NMs Num Decommissioning NMs RM alive Alert 各队列资源使用百分比的报警，暂未设置，需要业务方根据自身的情况自行设置 RM alive alert的报警，配置规则和“service_alive_alert”一致，在此不进行相关的介绍其他模块的报警，仅需注意、修改以下几点：

需要根据业务方的实际环境，配置红框2中的报警的条件以及阈值（可以使用模板默认值）以及红框3。其他均无需更改。

node_alert

节点相关指标报警，目前已有模板（见附件）如下：

系统平均负载磁盘util 网络流量分时磁盘使用率 CPU使用率内存使用率系统平均负载的报警，暂未设置，需要业务方根据自身的情况自行设置其他模块的报警，仅需注意、修改以下几点：

需要根据业务方的实际环境，配置红框2中的报警的条件以及阈值（可以使用模板默认值）以及红框3。其他均无需更改。

以上内容对您是否有帮助？

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

文档反馈