总况巡检
总况巡检
根据巡检周期安排,选择上一次巡检时间为开始,当前时间为结束并应用时间范围。
集群存储空间使用率
指标说明
HDFS集群的整体空间使用率。
异常判断
集群存储空间使用率较高,一般认为70%以上为告警水位线。
异常处理
执行 hadoop fs -du {HDFS目录} 排查占用空间大的目录,能清理减少的安排清理,无法清理降低占用时安排HDFS扩容。
Non dfs 使用空间
指标说明
HDFS集群non dfs使用空间大小。
异常判断
在查看的时间范围内,HDFS集群non dfs使用空间快速增长。
异常处理
根据情况具体分析处理。
可能的原因:lsof | grep delete 核查主机上删除未释放的空间。
集群连接数
指标说明
HDFS集群连接数。
异常判断
在查看的时间范围内,HDFS集群连接数快速增长。
异常处理
根据情况具体分析处理。
Num Missing Blocks
指标说明
HDFS集群丢失的 Block数量
异常判断
大于0为异常。
异常处理
Datanode丢失过多可能会造成 Block丢失,确认Datanode是否丢失并恢复。
hadoop fsck 进行修复。
Num Dead Datanodes
指标说明
HDFS集群丢失的 Datanode数量
异常判断
大于0为异常。
异常处理
根据情况具体分析处理,处理后启动恢复。
可能的原因:主机宕机、磁盘根目录占满等。
Volumn Failures Total
指标说明
HDFS集群丢失的磁盘数量
异常判断
大于0为异常。
异常处理
主机磁盘异常,恢复或更换磁盘。
Num Decommissioning Datanodes
指标说明
HDFS集群正在进行 Decommissioning 的 Datanode 数量。
异常判断
1台为正常下线,超过1台可能有丢数据风险,需要停止 Decommissioning。
异常处理
超过1台的 stop Decommissioning。
NN Alive Alert
指标说明
HDFS集群 Namenode的存活告警
异常判断
大于0为异常,即有 Namenode 停服。
异常处理
根据情况具体分析处理,处理后启动恢复。
可能的原因:网络波动后避免脑裂自动退出等
以上内容对您是否有帮助?