YARN告警

1.resourcemanager存活告警

告警说明

目前集群默认配置2个RM,如果如果有RM宕机,会进行告警推送;

告警参数

影响范围

如果2台都宕机,整个集群不可用,如果有一台宕机,集群可用正常使用,但是需要修复宕机RM;

原因分析

服务器故障,比如磁盘满了,内存异常,io异常;

zookeeper异常;

RM有full GC(GabageCollection)时间过长;

处理步骤

通过yarn的webui确定当前RM是否正常;

排查当前主机资源使用情况,比如磁盘,内存,io情况;

排查RM的gc日志,RM进程日志;

2.nodemanager节点告警

告警说明

该集群节点有一个,或者多个故障,NM跟RM心跳异常;

告警参数

影响范围

由于NM退服,导致yarn使用资源减少,间接导致任务资源不足;

可能原因

该节点主机异常,比如磁盘写满,网络故障等

zookeeper连接故障

该节点nodemanager进程异常

处理步骤

登录yarn的webui查看当前NM是否正常;

排查当前主机磁盘,网络等资源信息;

排查当前NM日志信息,进一步定位相关原因;