1 总况

总况界面如下图所示,右上方可以选择查看总况的时间范围,中间为各项指标数据。 2.1.1.png 各项指标数据的含义如下:

  • 集群存储空间使用率:HDFS集群的整体空间使用率。集群存储空间使用率一般认为70%以上为告警水位线。
  • Non dfs 使用空间:HDFS集群non dfs使用空间大小。
  • 集群连接数:HDFS集群连接数。
  • Num Missing Blocks:HDFS集群丢失的 Block数量异常判断大于0为异常。
  • Num Dead Datanodes:HDFS集群丢失的 Datanode数量异常判断大于0为异常。
  • Volumn Failures Total:HDFS集群丢失的磁盘数量。
  • Num Decommissioning Datanodes:HDFS集群正在进行 Decommissioning 的 Datanode 数量。
  • NN Alive Alert:HDFS集群 Namenode的存活告警。

2 服务

对所有接入的服务实例,提供服务的安装、启停、变更、扩缩容、卸载等操作。同时也提供服务维度的仪表盘用于检视服务各项关键指标和健康度。服务界面如下图所示,包含左侧导航栏、服务实例列表、服务实例详情等模块。 2.2.1.png

3 主机

主机界面如下所示,包含添加主机、主机列表和主机详情等模块。 2.2.2.png

4 审计

审计模块用来记录系统操作,便于后续做问题回溯。审计界面如下图所示,包含历史记录查询,操作日志查看等模块。 2.2.3.png

5 管理

管理界面如下图如所示,包含左侧导航栏、管理实例列表、管理实例详情等模块。 2.2.4.png 管理功能包括版本管理、升级管理、升级记录查看、插件管理以及标签管理等多个服务:

  • 版本管理:用户可以查看当前平台管理的各个服务的版本号、实例数等;同时可以通过添加服务版本为指定服务添加多个版本,添加成功后就可以在部署的时候选择特定版本进行服务部署。 2.2.5.png
  • 升级记录:可以查看选定时间段内平台内服务的升级记录。 2.2.6.png
  • 插件管理:平台中多个服务比如Kyuubi、Hive等会有权限插件、数据湖插件等插件依赖,为了方便单独对插件进行安装升级,可以使用该功能。
  • 标签管理:平台中主机可以打标签,用户选择部署的时候可以选择标签进行主机选择,该特性主要用于大规模集群中主机管理。

    6 报表

    点击“报表”打开集群部署的grafana,搜索打开或者在 HOME 打开 Node Exporter 的 Dashboard。主机巡检界面如下图所示,包含主机名、时间范围、主机指标巡检等模块。 2.2.7.png