6.4 YARN告警
更新时间: 2023-02-03 18:39:45
阅读 71
YARN告警
1.resourcemanager存活告警
告警说明
目前集群默认配置2个RM,如果如果有RM宕机,会进行告警推送;
告警参数
影响范围
如果2台都宕机,整个集群不可用,如果有一台宕机,集群可用正常使用,但是需要修复宕机RM;
原因分析
服务器故障,比如磁盘满了,内存异常,io异常;
zookeeper异常;
RM有full GC(GabageCollection)时间过长;
处理步骤
通过yarn的webui确定当前RM是否正常;
排查当前主机资源使用情况,比如磁盘,内存,io情况;
排查RM的gc日志,RM进程日志;
2.nodemanager节点告警
告警说明
该集群节点有一个,或者多个故障,NM跟RM心跳异常;
告警参数
影响范围
由于NM退服,导致yarn使用资源减少,间接导致任务资源不足;
可能原因
该节点主机异常,比如磁盘写满,网络故障等
zookeeper连接故障
该节点nodemanager进程异常
处理步骤
登录yarn的webui查看当前NM是否正常;
排查当前主机磁盘,网络等资源信息;
排查当前NM日志信息,进一步定位相关原因;
文档反馈
以上内容对您是否有帮助?