MONITOR 服务部署

EasyOps部署服务的监控安装

下面使用EasyOps平台来说明Monitor服务安装部署的操作流程

方式一:

点击顶部服务标签,进入服务管理页面

在左侧的组件导航栏选择监控组件后点击Monitor服务,在服务实例列表栏右端,点击添加监控

在弹出的添加监控窗口中,点击当前服务,选择所需安装监控的服务;然后在对应服务的实例列表中,选择对应的服务实例,点击添加监控

Generated

安装过程如下图:

Generated

安装完成后的状态如下图:

Generated

点击进入,可以查看此监控服务实例的组件信息:

Generated

点击对应的监控服务,可以看到对应服务实例的监控数据

Generated

方式二:

点击顶部服务标签,进入服务管理页面

在左侧的组件导航栏选择所需安装监控的服务,点击右端的添加监控

Generated

在弹出的添加监控窗口中,点击当前服务,选择所需安装监控的服务;然后在对应服务的实例列表中,选择对应的服务实例,点击添加监控

Generated

安装过程如下图:

Generated

安装完成后的状态如下图:

Generated

点击进入,可以查看此监控服务实例的组件信息:

Generated

点击对应的监控服务,可以看到对应服务实例的监控数据

Generated

外部服务导入EasyOps的监控安装

外部服务导入EasyOps平台进行服务实例的监控部署仅支持以下服务:

hdfs

yarn

hbase

hive

impala

kerberos

kyuubi

ldap

具体操作步骤同EasyOps部署服务的监控安装完全一致,同样具有两种操作方式

外部服务导入需满足如下设置以及操作:

hdfs

需检查namenode以及datanode的配置文件:hadoop-metrics2.properties,有如下配置:

*.sink.graphite.retry_socket_interval=60000
*.sink.graphite.socket_connection_retries=10
*.sink.graphite.class=org.apache.hadoop.metrics2.sink.GraphiteSink
*.period=30
*.sink.graphite.server_host=localhost
*.sink.graphite.server_port=9109            #namenode默认设置为9110,datanode默认设置为9109
namenode.sink.graphite.metrics_prefix=namenode
datanode.sink.graphite.metrics_prefix=datanode
secondarynamenode.sink.graphite.metrics_prefix=secondarynamenode

注:

如无以上配置,需要添加

namenode默认设置为9110,datanode默认为9109

在导入服务的load.yml中,datanode需要添加以下配置:

ports:
prometheus_input_port: 9108
agent_port: 9109

注:

agent_port对应上述的*.sink.graphite.server_port

在导入服务的load.yml中,namenode需要添加以下配置:

ports:
prometheus_input_port: 9107
agent_port: 9110

注:

agent_port对应上述的*.sink.graphite.server_port

如已安装对应的监控服务,需要停止之前的监控

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

使用EasyOps平台重启各个datanode以及namenode

注:

如果通过EasyOps平台更改上述配置,重启时需要勾选同步配置

如果直接在服务器上更改上述配置,直接通过EasyOps平台重启即可(不能通过原先平台重启,会覆盖配置)

如已安装对应的监控服务,需要停止之前的监控

yarn

需检查resourcemanager以及nodemanager的配置文件:hadoop-metrics2.properties,有如下配置:

*.sink.graphite.retry_socket_interval=60000
*.sink.graphite.socket_connection_retries=10
*.sink.graphite.class=org.apache.hadoop.metrics2.sink.GraphiteSink
*.period=30
*.sink.graphite.server_host=localhost
*.sink.graphite.server_port=9209            #resourcemanager默认设置为9209,nodemanager默认设置为9210
resourcemanager.sink.graphite.metrics_prefix=resourcemanager
nodemanager.sink.graphite.metrics_prefix=nodemanager
jobhistoryserver.sink.graphite.metrics_prefix=jobhistoryserver

注:

如无以上配置,需要添加

resourcemanager默认设置为9209,nodemanager默认设置为9210

在导入服务的load.yml中,resourcemanager需要添加以下配置:

ports:
prometheus_input_port: 9208
agent_port: 9209

注:

agent_port对应上述的*.sink.graphite.server_port

在导入服务的load.yml中,nodemanager需要添加以下配置:

ports:
prometheus_input_port: 9207
agent_port: 9210

注:

agent_port对应上述的*.sink.graphite.server_port

如已安装对应的监控服务,需要停止之前的监控

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

使用EasyOps平台重启各个resourcemanager以及nodemanager

注:

如果通过EasyOps平台更改上述配置,重启时需要勾选同步配置

如果直接在服务器上更改上述配置,直接通过EasyOps平台重启即可(不能通过原先平台重启,会覆盖配置)

如已安装对应的监控服务,需要停止之前的监控

hbase

需检查master以及regionserver的配置文件:hadoop-metrics2-hbase.properties,有如下配置:

*.sink.graphite.retry_socket_interval=60000
*.sink.graphite.socket_connection_retries=10
*.sink.graphite.class=org.apache.hadoop.metrics2.sink.GraphiteSink
*.period=30
hbase.sink.graphite.server_host=localhost
hbase.sink.graphite.server_port=9309            #master默认设置为9309,regionserver默认设置为9310
hbase.sink.graphite.metrics_prefix=hbase

注:

如无以上配置,需要添加

master默认设置为9309,regionserver默认设置为9310

在导入服务的load.yml中,master需要添加以下配置:

ports:
prometheus_input_port: 9308
agent_port: 9309

注:

agent_port对应上述的*.sink.graphite.server_port

在导入服务的load.yml中,regionserver需要添加以下配置:

ports:
prometheus_input_port: 9307
agent_port: 9310

注:

agent_port对应上述的hbase.sink.graphite.server_port

如已安装对应的监控服务,需要停止之前的监控

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

使用EasyOps平台重启各个master以及regionserver

注:

如果通过EasyOps平台更改上述配置,重启时需要勾选同步配置

如果直接在服务器上更改上述配置,直接通过EasyOps平台重启即可(不能通过原先平台重启,会覆盖配置)

如已安装对应的监控服务,需要停止之前的监控

hive

在导入服务的load.yml中,hiveserver需要添加以下配置:

ports:
hiveserver2_port: 9373
logs_dir: #需查看填写

注:

logs_dir为hiveserver2-report.json.tmp以及hivemetastore-report.json.tmp的文件夹路径,例如:#{logs_dir}/hiveserver2-report.json.tmp

如9373端口被占用,需要更改此端口

在导入服务的load.yml中,metastore需要添加以下配置:

ports:
hivemetastore_port: 9371
logs_dir: #需查看填写

注:

logs_dir为hiveserver2-report.json.tmp以及hivemetastore-report.json.tmp的文件夹路径,例如:#{logs_dir}/hivemetastore-report.json.tmp

如9371端口被占用,需要更改此端口

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

impala

在导入服务的load.yml中,catalogd需要添加以下配置:

ports:
prometheus_input_port: 9291
webserver_port: 25020

注:

webserver_port地址为catalogd的web页面访问端口

如9291端口被占用,需要更改此端口

在导入服务的load.yml中,impalad需要添加以下配置:

ports:
prometheus_input_port: 9293
webserver_port: 25000

注:

webserver_port地址为impalad的web页面访问端口

如9293端口被占用,需要更改此端口

在导入服务的load.yml中,statestored需要添加以下配置:

ports:
prometheus_input_port: 9295
webserver_port: 25010

注:

webserver_port地址为statestored的web页面访问端口

如9295端口被占用,需要更改此端口

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

kerberos

在导入服务的load.yml中,master需要添加以下配置:

ports:
prometheus_input_port: 9283

注:

如9283端口被占用,需要更改此端口

在导入服务的load.yml中,slave需要添加以下配置:

ports:
prometheus_input_port: 9283

注:

如9283端口被占用,需要更改此端口

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

kyuubi

在导入服务的load.yml中,service需要添加以下配置:

ports:
prometheus_input_port: 9379
current_dir: #根据实际目录填写

注:

如9379端口被占用,需要更改此端口

current_dir为report的文件夹路径,例如:#{current_dir}/metrics/report.json

按照4.1EasyOps部署服务的监控安装文档,进行监控安装

ldap

在导入服务的load.yml中,server需要添加以下配置:

ports:
prometheus_input_port: 9375
jinja2_vars:
slapd-init.ldif:
ldap_domain: bdms.163.com #示例
password: 123456 #示例

注:

如9375端口被占用,需要更改此端口

ldap_domain具体的组成询问开发

password为ldap的admin页面登录密码

按照EasyOps部署服务的监控安装文档,进行监控安装