主机告警

1.主机磁盘容量告警

告警解释

系统会周期性的检测主机磁盘的使用情况,当主机磁盘某一分区使用率大于或等于阈值时,推送告警,主机磁盘某一分区使用率小于或等于阈值的85%时,告警恢复。

告警参数

参数名称 参数含义
主机节点
告警值 主机单个磁盘使用大小
告警阈值

影响范围

业务进程不可用

原因分析

组件日志过大,磁盘存储过大,磁盘配置不合理。

处理步骤

检查磁盘阈值设置是否合理

Generated

检查主机磁盘使用情况

通过df -h 排查磁盘使用情况

通过du -sh 相关命令排查子目录使用情况

清理排查目录存储类型,常规是组件日志,数据存储,yarn计算缓存目录

告警恢复

通过df -h 排查磁盘使用低于阈值

2.主机内存告警

告警解释

系统会周期性的检测主机内存使用情况,当主机内存使用率大于或等于阈值时,推送告警,主机内存使用率小于或等于阈值的90%时,告警恢复。

告警参数

参数名称 参数含义
主机节点
告警值 主机内存实际使用情况
告警阈值

影响范围

导致部分服务异常,或者有些任务执行缓慢或者失败

原因分析

部分服务使用内存过高

处理步骤

排查主机内存告警阈值

Generated

排查内存使用情况

通过远程工具登录主机执行free -h 查看内存使用情况;

执行 ps -eo user,pid,pcpu,pmem,args —sort=-pmem |head -n 10 查看内存使用超过top10;

排查占用内存过高的程序是否正常,异常可以采取清理方法,比如 :kill 掉异常程序,停止相关服务,如果每个组件使用内存正常,可以对该节点扩容内存;

3.主机cpu告警

告警解释

系统会周期性的检测主机cpu使用情况,当主机cpu使用率大于或等于阈值时,推送告警,主机cpu使用率小于或等于阈值的90%时,告警恢复。

告警参数

参数名创 参数含义
主机节点
告警值 主机cpu使用
告警阈值

影响范围

导致部分服务异常,或者有些任务执行缓慢或者失败

原因分析

部分服务使用cpu过高

处理步骤

排查主机cpu告警阈值

Generated

排查cpu内存使用情况

命令 ps -eo user,pid,pcpu,pmem,args —sort=-pcpu |head -n 10 查看top10的cpu使用情况;

排查top10的服务cpu使用是否异常,如果有异常可以先kill 掉相关服务,或者进一步通过相关工具,日志定位;