搜索

欢迎您，游客 [ 立即登录 ]

总况巡检

更新时间: 2023-06-15 14:10:19 | 阅读 91

复制

总况巡检

根据巡检周期安排，选择上一次巡检时间为开始，当前时间为结束并应用时间范围。

集群存储空间使用率

指标说明

HDFS集群的整体空间使用率。

异常判断

集群存储空间使用率较高，一般认为70%以上为告警水位线。

异常处理

执行 hadoop fs -du {HDFS目录} 排查占用空间大的目录，能清理减少的安排清理，无法清理降低占用时安排HDFS扩容。

Non dfs 使用空间

指标说明

HDFS集群non dfs使用空间大小。

异常判断

在查看的时间范围内，HDFS集群non dfs使用空间快速增长。

异常处理

根据情况具体分析处理。

可能的原因：lsof | grep delete 核查主机上删除未释放的空间。

集群连接数

指标说明

HDFS集群连接数。

异常判断

在查看的时间范围内，HDFS集群连接数快速增长。

异常处理

根据情况具体分析处理。

Num Missing Blocks

指标说明

HDFS集群丢失的 Block数量

异常判断

大于0为异常。

异常处理

Datanode丢失过多可能会造成 Block丢失，确认Datanode是否丢失并恢复。

hadoop fsck 进行修复。

Num Dead Datanodes

指标说明

HDFS集群丢失的 Datanode数量

异常判断

大于0为异常。

异常处理

根据情况具体分析处理，处理后启动恢复。

可能的原因：主机宕机、磁盘根目录占满等。

Volumn Failures Total

指标说明

HDFS集群丢失的磁盘数量

异常判断

大于0为异常。

异常处理

主机磁盘异常，恢复或更换磁盘。

Num Decommissioning Datanodes

指标说明

HDFS集群正在进行 Decommissioning 的 Datanode 数量。

异常判断

1台为正常下线，超过1台可能有丢数据风险，需要停止 Decommissioning。

异常处理

超过1台的 stop Decommissioning。

NN Alive Alert

指标说明

HDFS集群 Namenode的存活告警

异常判断

大于0为异常，即有 Namenode 停服。

异常处理

根据情况具体分析处理，处理后启动恢复。

可能的原因：网络波动后避免脑裂自动退出等

以上内容对您是否有帮助？

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

当前文档 python 关键字 1 个。

1/1

所有文档

EasyData用户手册 EasyData FAQ 有数BI用户手册有数BI FAQ EasyStream用户手册 NDH用户手册

EasyData运维指南-7.0

EasyData用户手册 EasyData FAQ 有数BI用户手册有数BI FAQ EasyStream用户手册 NDH用户手册

EasyData运维指南-7.0