Grafana的easyops_alert告警配置
更新时间: 2021-12-05 21:38:40
阅读 1087
Grafana的easyops_alert告警配置
目前针对所有手动部署的报警模块均配置在grafana的easyops_alert文件夹内。其中有以下类型的报警,分别如下:
service_alive_alert:即服务存活报警 hdfs_alert:即相关的hdfs指标报警 yarn_alert:即相关的yarn指标报警 node_alert:即相关节点指标报警 |
---|
service_alive_alert
即服务存活报警。目前已有模板(见附件)如下:
Impala Hbase Zookeeper Spark_History Mammut Web Azkaban Mysql Hive 目前对于服务存活的查询语句,均使用的为absent()函数,此函数需要注意如下: 如果服务死亡,则dashboard中会显示该服务,值为1;如果服务正常,dashboard中不会显示数据 |
---|
配置方法参考《如何使用Grafana配置报警》
hdfs_alert
相关的指标报警,目前已有模板(见附件)如下:
集群存储空间使用率 non dfs使用空间 集群连接数 Num missing blocks Num dead datanodes Volume failures total Num decommissioning datanode NN alive alert non dfs和集群连接数的报警,暂未设置,需要业务方根据自身的情况自行设置 NN alive alert的报警,配置规则和“service_alive_alert”一致,在此不进行相关的介绍 其他模块的报警,仅需注意、修改以下几点: |
---|
需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。 |
---|
yarn_alert
yarn相关的报警指标,目前已有模板(见附件)如下:
各队列资源使用百分比 Num shutdown NMs Num lost NMs Num unhealthy NMs Num Decommissioning NMs RM alive Alert 各队列资源使用百分比的报警,暂未设置,需要业务方根据自身的情况自行设置 RM alive alert的报警,配置规则和“service_alive_alert”一致,在此不进行相关的介绍 其他模块的报警,仅需注意、修改以下几点: |
---|
需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。 |
---|
node_alert
节点相关指标报警,目前已有模板(见附件)如下:
系统平均负载 磁盘util 网络流量 分时磁盘使用率 CPU使用率 内存使用率 系统平均负载的报警,暂未设置,需要业务方根据自身的情况自行设置 其他模块的报警,仅需注意、修改以下几点: |
---|
需要根据业务方的实际环境,配置红框2中的报警的条件以及阈值(可以使用模板默认值)以及红框3。其他均无需更改。 |
---|
文档反馈
以上内容对您是否有帮助?